文字列操作

コンピュータサイエンスの形式言語理論の分野では、様々な文字列関数が頻繁に用いられます。しかし、その表記法はコンピュータプログラミングで使用される表記法とは異なり、理論分野でよく用いられる関数の中には、プログラミングではほとんど用いられないものもあります。この記事では、これらの基本用語のいくつかを定義します。

文字列と言語

文字列は有限個の文字の並びです。空文字列はで表されます。2つの文字列とを連結したものは、あるいは短縮してで表されます。空文字列との連結には違いはありません: 。文字列の連結はのように結合的です: 。 $\varepsilon$ $s$ $t$ $s\cdot t$ $st$ $s\cdot \varepsilon =s=\varepsilon \cdot s$ $s\cdot (t\cdot u)=(s\cdot t)\cdot u$

例えば、。 $(\langle b\rangle \cdot \langle l\rangle )\cdot (\varepsilon \cdot \langle ah\rangle )=\langle bl\rangle \cdot \langle ah\rangle =\langle blah\rangle$

言語とは、有限または無限の文字列の集合です。和集合、積集合などの通常の集合演算に加えて、言語には連結を適用できます。とが両方とも言語である場合、それらの連結は、の任意の文字列との任意の文字列の連結の集合として定義され、正式にはとなります。ここでも、連結ドットは簡潔にするために省略されることがよくあります。 $S$ $T$ $S\cdot T$ $S$ $T$ $S\cdot T=\{s\cdot t\mid s\in S\land t\in T\}$ $\cdot$

空文字列のみからなる言語は、空言語と区別する必要があります。前者を任意の言語に連結しても変化はありません: ですが、後者を連結すると常に空言語が生成されます: 。言語の連結は結合的です: 。 $\{\varepsilon \}$ $\{\}$ $S\cdot \{\varepsilon \}=S=\{\varepsilon \}\cdot S$ $S\cdot \{\}=\{\}=\{\}\cdot S$ $S\cdot (T\cdot U)=(S\cdot T)\cdot U$

例えば、を省略すると、3桁の10進数全体の集合はとなります。任意の長さの10進数全体の集合は、無限言語の一例です。 $D=\{\langle 0\rangle ,\langle 1\rangle ,\langle 2\rangle ,\langle 3\rangle ,\langle 4\rangle ,\langle 5\rangle ,\langle 6\rangle ,\langle 7\rangle ,\langle 8\rangle ,\langle 9\rangle \}$ $D\cdot D\cdot D$

文字列のアルファベット

文字列のアルファベットとは、特定の文字列に現れるすべての文字の集合である。sが文字列である場合、そのアルファベットは次のように表される。

\operatorname {Alph} (s)

言語のアルファベット は、の任意の文字列に出現するすべての文字の集合であり、正式にはです。 $S$ $S$ $\operatorname {Alph} (S)=\bigcup _{s\in S}\operatorname {Alph} (s)$

たとえば、セットは文字列のアルファベットであり、上記は上記の言語のアルファベットであるだけでなく、すべての 10 進数の言語のアルファベットでもあります。 $\{\langle a\rangle ,\langle c\rangle ,\langle o\rangle \}$ $\langle cacao\rangle$ $D$ $D\cdot D\cdot D$

文字列の置換

Lを言語とし、Σをそのアルファベットとする。文字列置換、あるいは単に置換とは、Σの文字を（異なるアルファベットの場合もある）言語に写像する写像fである。例えば、文字a∈Σが与えられたとき、 f ( a )= Laが成り立つ_。ここで、_La⊆Δ *^はアルファベットがΔである言語である。この写像は文字列にも拡張でき、

f (ε)=ε

空文字列εの場合、

f ( sa ) = f ( s ) f ( a )

文字列s ∈ Lと文字a ∈ Σに対して。文字列の置換は言語全体に拡張できる。^[1]

f(L)=\bigcup _{s\in L}f(s)

正規言語は文字列置換に対して閉じている。つまり、正規言語のアルファベットの各文字を別の正規言語に置き換えても、結果は依然として正規言語である。^[2]同様に、文脈自由言語は文字列置換に対して閉じている。^[3]^{[注 1]}

簡単な例としては、f _uc (.) を大文字に変換することが挙げられます。これは次のように定義できます。

キャラクター	言語にマッピング	述べる
×	関数_uc ( x )
‹ a ›	{ ‹ A › }	小文字を対応する大文字にマッピングする
‹あ›	{ ‹ A › }	大文字をそれ自身にマッピングする
‹ ß ›	{ ‹ SS › }	大文字は使用できません。2文字の文字列にマップします。
‹0›	{ ε }	数字を空の文字列にマッピングする
‹!›	{ }	句読点を禁止し、空の言語にマップする
...		他の文字についても同様

f _ucを文字列に拡張すると、例えば

f _uc (‹Straße›) = {‹S›} ⋅ {‹T›} ⋅ {‹R›} ⋅ {‹A›} ⋅ {‹SS›} ⋅ {‹E›} = {‹STRASSE›},
f _uc (‹u2›) = {‹U›} ⋅ {ε} = {‹U›}、そして
f _uc (‹Go!›) = {‹G›} ⋅ {‹O›} ⋅ {} = {}。

f _ucを言語に拡張すると、例えば

f _uc ({ ‹Straße›, ‹u2›, ‹Go!› }) = { ‹STRASSE› } ∪ { ‹U› } ∪ { } = { ‹STRASSE›, ‹U› }。

文字列準同型

文字列準同型（形式言語理論では単に準同型と呼ばれることが多い）とは、各文字を単一の文字列に置き換える文字列置換である。つまり、各文字に対して、（は文字列）となる。^{[注 2]}^[4] $f(a)=s$ $s$ $a$

文字列準同型は、自由モノイド上のモノイド射であり、空文字列と文字列連結の二項演算を保存します。言語が与えられた場合、集合はの準同型像と呼ばれます。文字列の逆準同型像は次のように定義されます。 $L$ $f(L)$ $L$ $s$

$f^{-1}(s)=\{w\mid f(w)=s\}$

言語の逆準同型像は次のように定義される。 $L$

$f^{-1}(L)=\{s\mid f(s)\in L\}$

一般的に、 $f(f^{-1}(L))\neq L$

$f(f^{-1}(L))\subseteq L$

そして

$L\subseteq f^{-1}(f(L))$

あらゆる言語に対応。 $L$

正規言語のクラスは準同型と逆準同型に関して閉じている。^[5] 同様に、文脈自由言語は準同型^{[注 3]}と逆準同型に関して閉じている。^[6]

文字列準同型は、アルファベットのすべてのaに対してとなるとき、ε-フリー（または e-フリー）であるといわれます。単純な一文字置換暗号は、（ε-フリー）文字列準同型の例です。 $f(a)\neq \varepsilon$ $\Sigma$

文字列準同型写像の例g _ucは、上記の置換と同様に定義することで得られる。g _uc (‹a›) = ‹A›, ..., g _uc (‹0›) = εであるが、句読点文字についてはg _ucを未定義とする。逆準同型写像の例は以下の通りである。

g _uc⁻¹ ({‹SSS›}) = {‹sss›, ‹sß›, ‹ßs›} であり、g _uc (‹sss›) = g _uc (‹sß›) = g _uc (‹ßs›) = ‹SSS› であり、
g _uc⁻¹ ({ ‹A›, ‹bb› }) = { ‹a› }, g _{uc (‹a›) = ‹A› であるため、}g _ucでは ‹bb› に到達できません。

後者の言語では、g _uc ( g _uc⁻¹ ({ ‹A›, ‹bb› })) = g _uc ({ ‹a› }) = { ‹A› } ≠ { ‹A›, ‹bb› } となる。準同型写像g _{uc は}、例えば ‹0› を ε に写像するため、ε-free ではない。

各文字を 1 つの文字にマッピングする非常に単純な文字列準同型性の例として、EBCDICでエンコードされた文字列を ASCIIに変換することが挙げられます。

文字列投影

sが文字列でがアルファベットの場合、の文字列射影はに含まれないすべての文字を削除することによって得られる文字列です。これはと書きます。これは、右側から文字を削除することによって正式に定義されます。 $\Sigma$ $\Sigma$ $\pi _{\Sigma }(s)\,$

\pi _{\Sigma }(s)={\begin{cases}\varepsilon &{\mbox{if }}s=\varepsilon {\mbox{ the empty string}}\\\pi _{\Sigma }(t)&{\mbox{if }}s=ta{\mbox{ and }}a\notin \Sigma \\\pi _{\Sigma }(t)a&{\mbox{if }}s=ta{\mbox{ and }}a\in \Sigma \end{cases}}

ここでは空文字列を表します。文字列の射影は、リレーショナル代数における射影と本質的に同じです。 $\varepsilon$

文字列射影は言語の射影に昇格することができる。形式言語 Lが与えられたとき、その射影は次のように与えられる。

\pi _{\Sigma }(L)=\{\pi _{\Sigma }(s)\ \vert \ s\in L\}

^[要引用]

右商と左商

文字列sの文字aの右商は、文字列sの文字aを右側から切り捨てたものです。これはと表記されます。文字列の右側にaがない場合、結果は空文字列になります。つまり、 $s/a$

(sa)/b={\begin{cases}s&{\mbox{if }}a=b\\\varepsilon &{\mbox{if }}a\neq b\end{cases}}

空の文字列の商は次のように取得できます。

\varepsilon /a=\varepsilon

同様に、モノイドの部分集合が与えられたとき、商部分集合を次のように定義できる。 $S\subset M$ $M$

S/a=\{s\in M\ \vert \ sa\in S\}

左商も同様に定義でき、演算は文字列の左側で行われます。^{[引用が必要]}

ホップクロフトとウルマン（1979）は、同じアルファベット上の言語L ₁とL ₂の商L 1 / L 2 をL 1 / L 2 = { s | ∃ t ∈ L 2 . st ∈ L 1 }と定義して_いる。[ ₇]_これは上記_の定義の一般化では_ない。なぜなら、文字_列sと^異なる文字a 、 bに対して、ホップクロフトとウルマンの定義は次を意味するからである。{ ε } ではなく {} になります。

単一言語L1_と任意の言語L2の左商（ホップクロフトとウルマン1979と同様に定義される場合）_は、ブロゾフスキー微分として知られている。L2が正規表現で表される場合、左商_も同様に表される。^[8]

統語関係

モノイドの部分集合の右商は、 Sの右統語関係と呼ばれる同値関係を定義する。これは次のように与えられる。 $S\subset M$ $M$

\sim _{S}\;\,=\,\{(s,t)\in M\times M\ \vert \ S/s=S/t\}

この関係は明らかに有限指数（同値類の数が有限）である。これは、族の右商が有限である場合に限る。つまり、

\{S/m\ \vert \ m\in M\}

は有限である。Mが何らかのアルファベット上の単語のモノイドである場合、 Sは正規言語、すなわち有限状態オートマトンによって認識可能な言語となる。これについては、統語的モノイドに関する記事でより詳細に議論されている。^[要出典]

権利の取消

文字列sから文字aを右消去するとは、文字列sの右側から始めて、文字aが最初に出現する位置を削除することである。これはと表記され、再帰的に次のように定義される。 $s\div a$

(sa)\div b={\begin{cases}s&{\mbox{if }}a=b\\(s\div b)a&{\mbox{if }}a\neq b\end{cases}}

空の文字列は常にキャンセル可能です。

\varepsilon \div a=\varepsilon

明らかに、右のキャンセルと投影の通勤：

\pi _{\Sigma }(s)\div a=\pi _{\Sigma }(s\div a)

^[要引用]

接頭辞

文字列の接頭辞は、特定の言語に関して、文字列のすべての接頭辞の集合です。

\operatorname {Pref} _{L}(s)=\{t\ \vert \ s=tu{\mbox{ for }}t,u\in \operatorname {Alph} (L)^{*}\}

どこ。 $s\in L$

言語の接頭辞閉包は

\operatorname {Pref} (L)=\bigcup _{s\in L}\operatorname {Pref} _{L}(s)=\left\{t\ \vert \ s=tu;s\in L;t,u\in \operatorname {Alph} (L)^{*}\right\}

例：
$L=\left\{abc\right\}{\mbox{ then }}\operatorname {Pref} (L)=\left\{\varepsilon ,a,ab,abc\right\}$

言語が接頭辞閉じていると言われるのは、次の場合です。 $\operatorname {Pref} (L)=L$

接頭閉包演算子はべき等である。

\operatorname {Pref} (\operatorname {Pref} (L))=\operatorname {Pref} (L)

接頭辞関係は、が成り立つ場合、かつその場合に限って成り立つ二項関係である。この関係は、接頭辞順序の特定の例である。^[^要出典^] $\sqsubseteq$ $s\sqsubseteq t$ $s\in \operatorname {Pref} _{L}(t)$

参照

プログラミング言語の比較（文字列関数）
リーバイスの補題
文字列（コンピュータサイエンス） — 文字列に対するより基本的な操作の定義と実装

注記

^ すべての正規言語は文脈自由でもあるが、前者の定理は現在の定理によって暗示されるものではない。なぜなら前者は正規言語に対してより明確な結果をもたらすからである。
^ 厳密に形式的には、準同型は 1 つの文字列だけからなる言語、つまりを生成します。 $f(a)=\{s\}$
^ これは、任意の置換の下での前述の閉包から導かれる。

参考文献

ホップクロフト, ジョン・E.; ウルマン, ジェフリー・D. (1979). 『オートマトン理論、言語、計算入門』マサチューセッツ州レディング: アディソン・ウェスリー出版. ISBN 978-0-201-02988-8. Zbl 0426.68001. （第3章を参照）

^ ホップクロフト、ウルマン（1979）、第3.2節、60ページ
^ ホップクロフト、ウルマン（1979）、第3.2節、定理3.4、p.60
^ ホップクロフト、ウルマン（1979）、第6.2節、定理6.2、p.131
^ ホップクロフト、ウルマン（1979）、Sect.3.2、p.60-61
^ ホップクロフト、ウルマン（1979）、第3.2節、定理3.5、p.61
^ ホップクロフト、ウルマン（1979）、第6.2節、定理6.3、p.132
^ ホップクロフト、ウルマン（1979）、第3.2節、62ページ
^ ヤヌシュ・A・ブルゾゾフスキー(1964)。「正規表現の派生」。J ACM。11 (4): 481–494 .土井: 10.1145/321239.321249。S2CID 14126942。

[4] すべての正規言語は文脈自由でもあるが、前者の定理は現在の定理によって暗示されるものではない。なぜなら前者は正規言語に対してより明確な結果をもたらすからである。

[singleton_sets-5] 厳密に形式的には、準同型は 1 つの文字列だけからなる言語、つまりを生成します。 $f(a)=\{s\}$

[8] これは、任意の置換の下での前述の閉包から導かれる。

[1] ホップクロフト、ウルマン（1979）、第3.2節、60ページ

[2] ホップクロフト、ウルマン（1979）、第3.2節、定理3.4、p.60

[3] ホップクロフト、ウルマン（1979）、第6.2節、定理6.2、p.131

[6] ホップクロフト、ウルマン（1979）、Sect.3.2、p.60-61

[7] ホップクロフト、ウルマン（1979）、第3.2節、定理3.5、p.61

[9] ホップクロフト、ウルマン（1979）、第6.2節、定理6.3、p.132

[10] ホップクロフト、ウルマン（1979）、第3.2節、62ページ

[11] ヤヌシュ・A・ブルゾゾフスキー(1964)。「正規表現の派生」。J ACM。11 (4): 481–494 .土井: 10.1145/321239.321249。S2CID 14126942。

v t e 文字列
文字列メトリック	近似文字列マッチングビットタップアルゴリズムダメラウ・レーベンシュタイン距離距離を編集ゲシュタルトパターンマッチングハミング距離ヤロ・ウィンクラー距離リー距離レーベンシュタイン・オートマトンレーベンシュタイン距離ワグナー・フィッシャーアルゴリズム
文字列検索アルゴリズム	アポストリコ – ジャンカルロアルゴリズムボイヤー・ムーア文字列探索アルゴリズムボイヤー・ムーア・ホースプールアルゴリズムクヌース・モリス・プラットアルゴリズムラビン・カープアルゴリズムライタアルゴリズムトライグラム検索双方向文字列マッチングアルゴリズム Zhu-Takaoka文字列マッチングアルゴリズム
複数文字列の検索	アホ・コラシック Commentz-Walterアルゴリズム
正規表現	正規表現エンジンの比較規則的な文法トンプソンの構築非決定性有限オートマトン
配列アライメント	ブラストヒルシュバーグのアルゴリズムニードルマン・ヴンシュアルゴリズムスミス・ウォーターマンアルゴリズム
データ構造	ダフサ部分文字列インデックスサフィックス配列サフィックスオートマトンサフィックスツリー圧縮されたサフィックス配列 LCPアレイ FMインデックス一般化接尾辞木ロープ三元探索木トライ
他の	解析パターンマッチング圧縮パターンマッチング最長共通部分列最長共通部分文字列シーケンシャルパターンマイニングソート文字列書き換えシステム文字列操作