単語区切り

お
単語区切り

句読法において、単語区切りは単語を区切るためのグリフです。ラテン文字、キリル文字、アラビア文字、およびヨーロッパと西アジアのその他の文字を使用する言語では、単語区切りは空白、つまりホワイトスペースです。この慣習は、ヨーロッパの句読法の他の側面とともに、単語を単語で区切らずに表記することが多いアジアやアフリカにも広がっています。^[¹^]ただし、現在または歴史的に、他にも多くの単語区切り文字が使用されています。たとえば、ラテン語の碑文でよく使用される句読点・です。

文字エンコードでは、単語の分割は、どの文字が単語区切りとして定義されているかによって決まります。

歴史

古代エジプト語では、限定詞は単語の意味を明確にするだけでなく、単語の境界を区切るためにも使われていた可能性があります。^{[ 2 ]}アッシリア楔形文字ではまれでしたが、後期楔形文字のウガリット文字では一般的に、縦線𒑰が単語を区切るために使用されました。古代ペルシア楔形文字では、斜めのくさび𐏐が使用されました。^{[ 3 ]}

アルファベットが古代世界に広まるにつれ、単語はしばしば区切られることなく連続して表記されるようになり、この慣習は南アジアと東南アジアの多くの地域で現在も、あるいは最近まで続いていました。しかしながら、碑文では縦線、写本では単数（·）、二重（：）、または三重（⁝）の句点（点）が単語を区切るために用いられることが少なくありませんでした。この慣習はフェニキア語、アラム語、ヘブライ語、ギリシャ語、ラテン語に見られ、今日ではエチオピア語にも引き継がれていますが、エチオピア語では空白が普及しつつあります。^{[ 4 ]}

連続文字

フェニキア文字などの初期のアルファベット表記体系では、子音記号しか使用されていませんでした（ただし、子音記号の中には母音を表すものもあり、いわゆるmatres lectionisと呼ばれています）。目に見える単語区切りがなければ、テキストを個々の単語に解析するのは困難だったでしょう。ギリシア語アルファベットで母音を表す文字が導入されると、単語間の区切りの必要性は減少しました。最初期のギリシア語の碑文では、それ以前の表記体系で一般的だった句読点が使用されていましたが、すぐに、すべての単語が区切られずに続く連続表記であるscriptio continuaの慣習が一般的になりました。

種類

なし

単語間の区切りのないアルファベット表記は、scriptio continuaとして知られ、古代エジプト語で使用されていました。これは、句読点の使用から数世紀後に、古典期以降のラテン語に現れました

伝統的に、南アジアと東南アジアのインド系アルファベットと韓国のハングルには連続文字が使用されていましたが、現在ではハングルではスペースが使用され、インド系アルファベットでも使用されることが増えています。

今日、中国語と日本語は、単語を区切るための句読点なしで一貫して書かれた最も広く使われている文字ですが、タイ語やラオス語などの他の文字もこの表記規則に従っています。古典中国語では、単語と文字はほぼ同じものであったため、単語の区切りは不要だったでしょう。現代の北京語には多音節語が数多くあり、各音節は別の文字で書かれていますが、文字と単語、または少なくとも形態素との概念的なつながりは強く残っており、文字が既に提供しているもの以外の単語の区切りの必要性は感じられません。このつながりはベトナム語にも見られますが、ベトナム語のアルファベットでは、単語の境界を形成するかどうかに関係なく、事実上すべての音節がスペースで区切られています。

人権宣言の第一条をジャワ文字「scriptio continua」で表した例。

スペース

スペースは、特にラテン文字において、最も一般的な単語の区切り文字です

縦線

アナトリア象形文字などの古代の刻字や楔形文字では、線文字Bと同様に、単語を区切るために短い縦線が頻繁に用いられました。写本では、縦線はラテン語のカンマやピリオドに相当する、より長い区切りに用いられることが一般的でした。この傾向は、今日の多くのインド系文字（ダンダ）にも引き継がれています。

点間、多重点、低拡張期

arma・virvmqve・cano・troiae・qvi・primvs・ab・oris italiam・fato・profvgvs・laviniaqve・venit litora・mvltvm・ille・et・terris・iactatvs・et・alto vi・svpervm・saevae・memorem・ivnonis・ob・iram

ラテン語の句読点

前述のように、古代世界全域の写本（紙）では、一重句読点と二重句読点が使用されていました。例えば、エチオピアの碑文では縦線が使用され、写本ではコロンに似た二重点（፡）が使用されていました。後者の慣習は今日まで続いていますが、スペースは徐々に縮小しつつあります。古典ラテン語では、紙の写本と石の碑文の両方で句読点が使用されていました。^{[ 6 ]}古代ギリシャ語の正書法では、単語の区切りとして2つから5つの点と、ハイポディアストールが使用されていました。^{[ 7 ]}

異なる文字の形

現代のヘブライ語とアラビア語のアルファベットでは、一部の文字は単語の末尾と／または先頭で異なる形をしています。この区別は、スペースに加えて使用されます

縦書き

イスラム書道のナスターリーク形式では、単語を区切るために縦書きが使用されます。各単語の始まりは前の単語の終わりよりも高く書かれるため、行は鋸歯状の外観になります。ナスターリークはペルシャから広まり、今日ではペルシャ語、ウイグル語、パシュトー語、ウルドゥー語で使用されています

休止

指文字とモールス信号では、単語は休止で区切られます

ユニコード

コンピュータで使用する場合、これらのマークにはUnicodeのコードポイントがあります。

U+0020 SPACEを含む多くの空白文字については、whitespace を参照してください。
U+00B7 ·中点
U+003A :コロン
U+2E31 ⸱単語区切り中点
U+1361 ፡エチオピア語のワードスペース
U+10FB ჻ジョージア語の段落区切り文字
U+2056 ⁖三つの点の句読点— Thesaurus Linguae Graecaeの言語学者 Nick Nicholas は次のように述べている。「私はU+2056 三つの点の句読点についてはよく知らない。これは他の複数の点の句読点とは異なり、TLG の提案から生まれたものではない。しかし、ギリシャ人が三角形の中に三つの点を句読点として使うというアイデアを思いつかなかったとしても、他の誰かが思いついたことは間違いない」。^[⁷^]
U+2058 ⁘ 4点句読点^{[ 7 ]}
U+2059 ⁙五点句読点（研究者ニック・ニコラスによると、これは「ペントンキオン（5オンスの記号で、5オンスの銀貨でもあった）としても機能した」^{[ 7 ]}
U+205A ⁚ 2点句読点（ニック・ニコラスによれば、「文末や話者の交代を示すためによく使用され、版によっては通常のローマ字のコロンよりも高くすることで区別されている」）^{[ 7 ]}
U+205D ⁝トリコロン^{[ 7 ]}
U+205E ⁞縦4点^{[ 7 ]}
U+2E19 ⸙ヤシの枝
U+0830 ࠰サマリア語句読点 NEQUDAA

線文字Bの場合:

U+10100 𐄀エーゲ語単語区切り線
U+10101 𐄁エーゲ語単語区切りドット

参照

参考文献

^ Saenger 2000
^ Ritner 1996、77ページ：「限定詞は容易に識別できる単語の区切りであり、読みやすさを最も大きく向上させる。」
^キング、レナード・ウィリアム（1901年）『アッシリア楔形文字』ニューヨーク：AMSプレス、42頁。
^ Unicode 2025、p. 996 ( web )、19.1 エチオピア語 § 単語区切り文字:
伝統的な単語区切り文字はU+1361 ፡ ETHIOPIC WORDSPACEです。現代の用法では、単純な白い単語間隔（U+0020 SPACE）が一般的になりつつあります。
^シカゴ大学出版局 (1911). 『スタイルマニュアル：シカゴ大学の出版物を統括するタイポグラフィックルール集、大学出版局で使用されている活字の見本付き（第3版）』シカゴ：シカゴ大学. p. 101 .この行にはスペースが空けられています。
^ウィンゴ 1972、16ページ。
^ ^a ^b ^c ^d ^e ^f ^gニコラス（2003） .

出典

ニコラス、ニック（2003）「句読法§5. パピルスによる句読法」
リトナー、ロバート (1996)「エジプトの文字」ダニエルズ、ピーター・T、ブライト、ウィリアム（編）『世界の文字体系』オックスフォード大学出版局
ポール・センガー（2000年）『言葉の間の空間：黙読の起源』スタンフォード大学出版局、ISBN 0-8047-4016-X。
ウィンゴ、E. オサ (1972). 『古典期におけるラテン語の句読点』ムートン. 16ページ
Unicode®標準バージョン17.0 - コア仕様(PDF) (第17版). サウスサンフランシスコ: Unicodeコンソーシアム. 2025年9月9日. ISBN 978-1-936213-35-12026年1月22日閲覧

[FOOTNOTESaenger2000-1] Saenger 2000

[FOOTNOTERitner199677-2] Ritner 1996、77ページ：「限定詞は容易に識別できる単語の区切りであり、読みやすさを最も大きく向上させる。」

[3] キング、レナード・ウィリアム（1901年）『アッシリア楔形文字』ニューヨーク：AMSプレス、42頁。

[FOOTNOTEUnicode2025[httpswwwunicodeorgversionsUnicode1700UnicodeStandard-170pdfpage996_996]_([httpswwwunicodeorgversionsUnicode1700core-specchapter-19G12543_web])19.1_Ethiopic_§_Word_Separators-4] Unicode 2025、p. 996 ( web )、19.1 エチオピア語 § 単語区切り文字:
伝統的な単語区切り文字はU+1361 ፡ ETHIOPIC WORDSPACEです。現代の用法では、単純な白い単語間隔（U+0020 SPACE）が一般的になりつつあります。

[5] シカゴ大学出版局 (1911). 『スタイルマニュアル：シカゴ大学の出版物を統括するタイポグラフィックルール集、大学出版局で使用されている活字の見本付き（第3版）』シカゴ：シカゴ大学. p. 101 .この行にはスペースが空けられています。

[FOOTNOTEWingo197216-6] ウィンゴ 1972、16ページ。

[FOOTNOTENicholas2003-7] ^ ^a ^b ^c ^d ^e ^f ^gニコラス（2003） .

[

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

v t e 一般的な句読点およびその他の印刷記号
スペース、カンマ：コロン ; セミコロン ‐ ハイフン ' ' アポストロフィ ′ ″ ‴ プライム . 終止符
& アンパサンド @ アットマーク ^ キャレット / スラッシュ \ バックスラッシュ … 省略記号 * アスタリスク ※ 参照マーク ⁂ アスタリスク • • • ディンカス
- ハイフン-マイナス ‒ – — ダッシュ ⹀ ⸗ 二重ハイフン
? 疑問符 ! 感嘆符 ‽ 質問用 ¡ ¿ 反転！と？ ⸮ 皮肉な句読点
# 番号記号 № 数字記号 º ª 序数指示子 % パーセント記号 ‰ パーミル ‱ ベーシスポイント ° 度記号 ⌀ 直径記号
+ − プラス記号とマイナス記号 × 乗算記号 ÷ 除算記号 ~ チルダ ± プラスマイナス記号 ∓ マイナスプラス記号 √ 根号記号
_ アンダースコア ⁀ タイ \| ¦ ‖ 縦棒 • 箇条書き · 句読点
© 著作権シンボル ℗ 録音著作権 ® 登録商標 ^SM サービスマークシンボル ^TM 商標記号
' ' “ ” ' ' " " 引用符 ‹ › « » ギュイメット ( ) [ ] { } ⟨ ⟩ 括弧 ” 同上マーク
† ‡ 短剣 ❧ フルーロン（ヘデラ、アルダス） ☞ マニキュア ◊ ⌑ ロゼンジ ¶ ⸿ ピルクロウ（段落記号） § セクションマーク
この表をソート可能なリストとして表示したもの通貨記号発音区別記号（アクセント）論理記号数学記号空白文字中国語の句読点ヘブライ語の句読点日本語の句読点韓国語の句読点ベトナム語の句読点