Unicodeのラテン文字
ユニコード標準では、ラテン文字の1000を超える文字がエンコードされており、いくつかの基本ラテンブロックと拡張ラテンブロックにグループ化されています。拡張範囲には、主に合成文字と、結合分音記号でエンコードされた分音記号、およびいくつかの合字と独特の文字が含まれており、たとえば、さまざまなアフリカ言語の正書法(ラテン拡張Bのクリック記号を含む)やベトナム語アルファベット(ラテン拡張追加)で使用されています。ラテン拡張Cには、ウイグル文字とクラウディオ文字の追加が含まれています。ラテン拡張Dは、主に中世学者が関心を持つ文字で構成されています。ラテン拡張Eは、主にドイツ語方言学(Teuthonista)で使用される文字で構成されています。[1]ラテン拡張Fと-Gには、音声転写用の文字が含まれています。
ブロック
Unicode規格バージョン17.0では、以下の19ブロックの1,492文字がラテン文字に分類されています。[2]
- 基本ラテン文字, 0000–007F。このブロックはASCIIに対応します。
- Latin-1 Supplement、0080–00FF。このブロックとASCII部分はIANA Latin-1に総合的に相当します。
- ラテン語拡張A、0100~017F
- ラテン語拡張B、0180~024F
- IPA拡張、0250–02AF
- 間隔修飾文字、02B0~02FF
- 音声拡張、1D00~1D7F
- 音声拡張補足、1D80–1DBF
- ラテン語拡張追加、1E00–1EFF
- 上付き文字と下付き文字、2070~209F
- 文字のような記号、2100–214F
- 番号形式、2150~218F
- ラテン語拡張C、2C60–2C7F
- ラテン拡張D、A720~A7FF
- ラテン語拡張-E、AB30~AB6F
- アルファベット表記(ラテン合字)FB00~FB4F
- 半角と全角のフォーム、FF00~FFEF
- ラテン語拡張F、10780–107BF
- ラテン拡張G、1DF00~1DFFF
さらに、通貨記号、制御ピクチャ、CJK互換、囲み英数字、囲みCJK文字と月、数学英数字記号、囲み英数字補足ブロックには、ラテン文字に似た文字が多数エンコードされていますが、これらはグラフィカルにはラテン文字ですが、スクリプトプロパティが共通であるため、Unicodeの用語ではラテンスクリプトには属しません。Lisu文字もほぼ完全にラテン形式で構成されていますが、独自のスクリプトプロパティを使用しています。
文字一覧
この表では、 Unicodeのスクリプトプロパティがラテン文字である文字は色で強調表示されており、導入されたUnicodeのバージョンを示しています。予約済みのコードポイント(将来文字として割り当てられる可能性があるもの)は灰色の背景で表示されます。ラテン文字に属さない文字はすべて白色の背景で表示されます(したがって、導入されたUnicodeのバージョンは示されていません)。
参照
参考文献
- ^ エバーソン、マイケル、ディクルベルガー、アロイス、ペンツリン、エヴェリン (2011年6月2日). 「UCSにおける「Teuthonista」音声文字の符号化に関する改訂提案」(PDF) .
- ^ "Scripts-17.0.0.txt". Unicode Consortium . 2025年7月24日. 2025年9月9日閲覧。