タミル語のすべての文字エンコーディング

タミル全文字エンコーディング（TACE16 ）は、ユニコードの私的使用領域でタミル文字をエンコードするためのスキームであり、ユニコードの既存のタミル実装で使用されている修正ISCIIモデルとは異なる音節ベースの文字モデルを実装しています。^[1]^[2]

キーボードドライバーとフォント

このエンコード方式のキーボードドライバーは、タミルバーチャルアカデミーのWeb サイトから無料で入手できます。^[3]^[4]このドライバーは、タミルナドゥ州政府によって承認されたタミル 99およびタミルタイプライターのキーボードレイアウトを使用し、入力キーを TACE16 方式の対応する文字にマッピングします。^[2] TACE16 を使用して作成されたファイルを読み取るために、対応する Unicode タミルフォントも同じ Web サイトから入手できます。^[3]^[4]これらのフォントは、TACE16 形式の文字のグリフをマッピングするだけでなく、ASCII 文字とタミル文字の両方のUnicode ブロックにもマッピングするため、タミル Unicode ブロックを使用して作成された既存のファイルを読み取るための下位互換性が確保されます。

文字セット

このエンコード方式のすべての文字は、Unicodeのユニバーサルコード化文字セットの基本多言語面の私的使用領域に配置されています。

タミル語全文字エンコーディング（TACE16）文字セット^[5]
母音→		∅	あ	Ā	私	私	あなた	Ū	E	Ē	愛	お	オー	オー	（その他）
子音 ↓		_0	_1	_2	_3	_4	_5	_6	_7	_8	_9	_A	_B	_C	_D	_E	_F
（記号）	U+E10_	௳	௴	௵	௶	௷	௸	௹	௺	○	●	★	ராஜ	ௐ
（数字）	U+E18_	௦	௧	௨	௩	௪	௫	௬	௭	௮	௯	௰	௱	௲
（分数）	U+E1A_	𑿌	𑿐	𑿑	𑿓	𑿅	𑿉	𑿎	𑿄	𑿈	𑿋	𑿍	𑿏	𑿀	𑿁	𑿂	𑿆
∅	U+E1F_	்		ா	ி	ீ	ு	ூ	ெ	ே	ை	ொ	ோ	ௌ
∅	U+E20_		அ	ஆ	இ	ஈ	உ	ஊ	எ	ஏ	ஐ	ஒ	ஓ	ஔ	ஃ
K	U+E21_	க்	க	கா	கி	கீ	கு	கூ	கெ	கே	கை	கொ	கோ	கௌ
ン	U+E22_	ங்	ங	ஙா	ஙி	ஙீ	ஙு	ஙூ	ஙெ	ஙே	ஙை	ஙொ	ஙோ	ஙௌ
C	U+E23_	ச்	ச	சா	சி	சீ	சு	சூ	செ	சே	சை	சொ	சோ	சௌ
Ñ	U+E24_	ஞ்	ஞ	ஞா	ஞி	ஞீ	ஞு	ஞூ	ஞெ	ஞே	ஞை	ஞொ	ஞோ	ஞௌ
Ṭ	U+E25_	ட்	ட	டா	டி	டீ	டு	டூ	டெ	டே	டை	டொ	டோ	டௌ
Ṇ	U+E26_	ண்	ண	ணா	ணி	ணீ	ணு	ணூ	ணெ	ணே	ணை	ணொ	ணோ	ணௌ
T	U+E27_	த்	த	தா	தி	தீ	து	தூ	தெ	தே	தை	தொ	தோ	தௌ
北	U+E28_	ந்	ந	நா	நி	நீ	நு	நூ	நெ	நே	நை	நொ	நோ	நௌ
P	U+E29_	ப்	ப	பா	பி	பீ	பு	பூ	பெ	பே	பை	பொ	போ	பௌ
M	U+E2A_	ம்	ம	மா	மி	மீ	மு	மூ	மெ	மே	மை	மொ	மோ	மௌ
はい	U+E2B_	ய்	ய	யா	யி	யீ	யு	யூ	யெ	யே	யை	யொ	யோ	யௌ
R	U+E2C_	ர்	ர	ரா	ரி	ரீ	ரு	ரூ	ரெ	ரே	ரை	ரொ	ரோ	ரௌ
L	U+E2D_	ல்	ல	லா	லி	லீ	லு	லூ	லெ	லே	லை	லொ	லோ	லௌ
V	U+E2E_	வ்	வ	வா	வி	வீ	வு	வூ	வெ	வே	வை	வொ	வோ	வௌ
Ḻ	U+E2F_	ழ்	ழ	ழா	ழி	ழீ	ழு	ழூ	ழெ	ழே	ழை	ழொ	ழோ	ழௌ
Ḷ	U+E30_	ள்	ள	ளா	ளி	ளீ	ளு	ளூ	ளெ	ளே	ளை	ளொ	ளோ	ளௌ
Ṟ	U+E31_	ற்	ற	றா	றி	றீ	று	றூ	றெ	றே	றை	றொ	றோ	றௌ
Ṉ	U+E32_	ன்	ன	னா	னி	னீ	னு	னூ	னெ	னே	னை	னொ	னோ	னௌ
グランサのキャラクター
J	U+E33_	ஜ்	ஜ	ஜா	ஜி	ஜீ	ஜு	ஜூ	ஜெ	ஜே	ஜை	ஜொ	ஜோ	ஜௌ
シュ	U+E34_	ஶ்	ஶ	ஶா	ஶி	ஶீ	ஶு	ஶூ	ஶெ	ஶே	ஶை	ஶொ	ஶோ	ஶௌ
Ṣ	U+E35_	ஷ்	ஷ	ஷா	ஷி	ஷீ	ஷு	ஷூ	ஷெ	ஷே	ஷை	ஷொ	ஷோ	ஷௌ
S	U+E36_	ஸ்	ஸ	ஸா	ஸி	ஸீ	ஸு	ஸூ	ஸெ	ஸே	ஸை	ஸொ	ஸோ	ஸௌ
H	U+E37_	ஹ்	ஹ	ஹா	ஹி	ஹீ	ஹு	ஹூ	ஹெ	ஹே	ஹை	ஹொ	ஹோ	ஹௌ
クシュ	U+E38_	க்ஷ்	க்ஷ	க்ஷா	க்ஷி	க்ஷீ	க்ஷு	க்ஷூ	க்ஷெ	க்ஷே	க்ஷை	க்ஷொ	க்ஷோ	க்ஷௌ	ஶ்ரீ

伝説：
	不規則なグリフを持つ音節文字は、本質的にフォントによって個別に処理される必要があります。^[a]
	新しく追加されました。Unicode バージョン 6.3 には存在しません。
	タミル語補足ブロックの文字に対応し、Unicodeバージョン12（2019）で追加された。
	研究用に割り当て（NLP）

TACE16と現在のタミル語Unicodeの比較

タミル語の標準Unicode文字モデルに対する批判

デーヴァナーガリー文字、タミル文字、カンナダ文字、シンハラ文字、絵文字の Unicode エンコードモデルでは、非表示のゼロ幅結合文字とゼロ幅非結合文字を使用する必要があります。

タミル語の既存のUnicode文字モデルは、インド系Unicodeのほとんどの文字モデルと同様に、^[b]ISCIIから派生したabugidaベースのモデルです。これはいくつかの理由から批判されてきました。^[1]

Unicode は、247 の書記素クラスターのうち、31 のタミル語基本文字のみを単一のコードポイントとして表します。これらには、スタンドアロンの母音と 23 の基本的な子音グリフ (ヴィラマを持たないため、単独で使用した場合、子音と母音の両方を持つ音節を示します) が含まれます。その他はコードポイントのシーケンスとして表され、正しくレンダリングするには高度なタイポグラフィ機能 ( Apple Advanced Typography、Graphite、OpenType advanced typographyなど) のソフトウェアサポートが必要です。また、これにより、目的の書記素クラスターがあいまいになる場所で、非表示のゼロ幅結合文字とゼロ幅非結合文字を使用する必要があります。この複雑さにより、セキュリティ上の脆弱性やあいまいな組み合わせが生じる可能性があり、コードポイントの無効な組み合わせを禁止するために例外テーブルの使用が必要になる場合があり、 2 つの文字列が等しいかどうかを比較するために文字列の正規化を使用する必要がある場合もあります。

さらに、子音と母音の両方を含む音節がタミル語テキストの 64 ～ 70% を占めるため、子音と母音の部分を別々のコードポイントとしてエンコードするアブギダベースのモデルは、音節ベースのモデルと比較して、特定のテキストを格納するために必要な文字列の長さの点で非効率的です。

さらに、ISCII は主にデーヴァナーガリー文字のエンコードであり、他のブラーフミー文字(タミル語を含む)の ISCII エンコードは、デーヴァナーガリー ISCII の対応する文字のコードポイントで文字をエンコードします。Unicode はブラーフミー文字を互いに別々にエンコードしますが、タミル語ブロックは ISCII レイアウト (デーヴァナーガリー文字スタイルの文字順序、およびタミル語に同等のものがないデーヴァナーガリー文字に対応する位置に予約されたスペース) を反映しています。その結果、文字は自然なシーケンス順序にはならず、コードポイントで照合された文字列(英語テキストの " ASCIIbetical " ソートに類似) は期待されるソート順序を生成しません。自然な順序に並べるには複雑な照合アルゴリズムが必要です。

TACE16との比較

以下のデータは、電子政府とブラウジングに関する現在のUnicodeタミル語とTACE16の比較を示しています。^[1]^{[より良い情報源が必要]}

TACE16 は、データ保存に関して Unicode タミル語よりも約 5.46 ～ 11.94 パーセント効率的です^{[説明が必要]}。
TACE16 は、インデックスデータのソートにおいて、Unicode タミル語よりも約 18.69 ～ 22.99 パーセント効率的です。
TACE16は、データ全体がタミル語の場合、Unicodeタミル語と比較して約25.39%効率的です。TACE16のコード空間値を使用する際のデフォルトの照合順序（バイナリ）は、タミル語辞書の順序とは異なります。
TACE16 は、Unicode タミル語と比較して、ソートが約 0.31 ～ 16.96 パーセント高速です。
TACE16 データのインデックス作成は、Unicode よりも 36.7% 高速です。
インデックス付きフィールドのフルキー検索では、TACE16はUnicodeタミル語よりも最大24.07%優れたパフォーマンスを発揮します。インデックスなしフィールドの場合、TACE16はUnicodeタミル語よりも最大20.9%優れたパフォーマンスを発揮します。
静的タミル語データのレンダリングは TACE16 で機能します。

TACE16は、処理時間と処理空間の性能向上を実現します。タミル語の一般的なテキスト全体を網羅し、シーケンシャルで、かつ明確な表現で、どのポイントも1文字のみに対応します。^[1]^{[より適切な出典が必要]} TACE16システムは、Unicodeタミル語よりも命令サイクル数が少なく、タミル語文法に基づくプログラミングも可能です^[要説明]。これはUnicodeタミル語における追加のフレームワーク開発を必要とします。

Unicodeコンソーシアムによる回答

Unicodeコンソーシアムは、タミル文字に関する専用のFAQページを公開し、いくつかの批判に回答しています。コンソーシアムはISCIIモデルを擁護し、その開発には専門の言語学者、タイポグラファー、プログラマーが関わったと述べていますが、ISCIIがシングルバイト拡張ASCIIに制限されていたために妥協があったことも認めています。コンソーシアムは、現在ではすべての主要なオペレーティングシステムとウェブブラウザでUnicodeタミルが実装されていると指摘し、検索エンジンなどのツールは必ずしもUnicode私用コードポイントのシーケンスをタミルテキストとして識別または解釈できるとは限らないため、オンラインなどのオープンな交換コンテキストで使用すべきだと主張しています。ただし、コンソーシアムは、TACE16などの私的使用領域スキームを、それが有用な特定のプロセスの内部で使用することには反対していません。特に、マークアップスキームと代替エンコードスキームの両方が、自然言語処理などの特殊な目的のために研究者によって使用される可能性があることを強調しています。^[6]

Unicodeは、複数のコードポイントのシーケンスで表されるすべてのタミル語純粋子音および音節に対して、規範的な名前付きシーケンスを定義しており、Unicode標準の一部として、これらのシーケンスすべてを従来の順序で、正しいグリフとともにリストした専用の表が公開されています。コンソーシアムは、既存のUnicode表現が存在しない文字の提案も積極的に受け入れてきたと指摘しています。例えば、 2019年のバージョン12.0では、歴史的な分数やその他の記号をタミル語補足ブロックとして追加しました^。[6]

照合順序に関して、コンソーシアムは、コードポイントによるソートで正しい結果が得られるのは例外であり、規則ではないと主張している。これは、ASCIIコードの順序を変更しないままでは、大文字のラテン文字Z が小文字のaよりも前にソートされること、また照合規則が言語によって異なることが多いこと（öなど）を強調している。スペース効率に関して、コンソーシアムは、テキストが占めるストレージスペースと帯域幅は、画像や動画などの付随メディアによって大幅に削減されること、そしてテキストコンテンツは、Deflate（元々はZIPファイル形式に由来し、RFC 1951で標準化され、汎用エンコード方式としてHTTPプロトコルに統合されている）などの汎用圧縮方式で良好に機能すると主張している。^[6]

Unicode安定性ポリシー

Unicodeが最初に公開されたとき（バージョン1.0.0）、安定性の保証は限定的でした。そのため、元のチベット語ブロックはバージョン1.0.1で削除され（その後、その領域はミャンマー語ブロックに置き換えられました）、元の韓国語音節ブロックはバージョン2.0で削除されました（現在はCJK統合漢字拡張Aに置き換えられています）。現在の韓国語音節ブロック（ハングル音節ブロック）と現在のチベット語ブロックは、どちらもUnicode 2.0に遡ります。これは、これらの表記体系でUnicodeを使用した既存のコンテンツがほとんど存在しない、あるいは全く存在しないという前提に基づいて行われました。^{[7]これは、これらの表記体系の既存のUnicodeコンテンツおよび}入力メソッドとの互換性を損なうためです。いわゆる「韓国語の混乱」の後、担当委員会は、このような互換性を損なう変更を二度と行わないことを誓約しました。^[7]これは現在、Unicode安定性ポリシーの一部となっています。^[8]

この安定性政策は、中国と北朝鮮からそれぞれチベット語と韓国語の文字モデルの再エンコードまたは変更を求める要求があったにもかかわらず、それ以来一貫して維持されてきました。^[9]^[10]^[11]^[12]同様にタミル語に関しても、コンソーシアムは「既存の実装における標準の安定性を維持するという重要な問題」を強調し、「標準を不安定化させることによって生じるコストと影響」は、処理速度やストレージ容量といった効率性の向上によるメリットを大幅に上回ると主張しています。^[6]

タミル語を再エンコードする提案^[13]があったが、ユニコードによって拒否された。再エンコードは有害であり、ユニコードのタミル語エンコードに欠陥があるという説得力のある証拠はないと述べた。^[14]

代替案

オープンタミル

Open-Tamilプロジェクト^[15]は、多くの一般的な操作を提供しています。TACE16を使用せずにタミル語テキスト処理のレベル1準拠を主張していますが、Unicodeタミル語に必要な追加のプログラミングロジックに基づいて記述されています。

参照

クリップフォント
情報交換のためのタミル文字コード
タミル語キーボード
தமிழ் 99
インスクリプト
タミル語（Unicodeブロック）
タミル語ブログ圏
AnyTaFont2UTF8 –すべてのタミル語エンコーディング/フォントマッピング文字用のオープンソースプロジェクト。

脚注

^ U 列と Ū 列で強調表示されている音節文字は、グリフの母音部分が、Unicode ブロックチャートの母音記号の組み合わせで示されている単純な下結合形式にも、右結合の Grantha 形式 (たとえば、Noto フォントで母音記号を単独で組み合わせる場合に使用) にも一致しないものです。
^ ただし、異なるモデルを使用するチベット語と、 TIS-620から派生したモデルを使用するタイ語および関連文字を除く。

参考文献

^ abcd TACE16タスクフォースの最終勧告に関する報告書(PDF) (レポート).
^ ab 「16ビットエンコーディング（UnicodeおよびTACE16）用のタミルフォントおよびタミルキーボードドライバーの開発に関する入札書類」（PDF）。タミルバーチャルアカデミー。
^ ab "தமிழ் எழுத்துருக்கள்".タミルバーチャルアカデミー。
^ ab タミル・ナードゥ州政府の命令（GO）、キーボードドライバーとフォント 2023年12月27日アーカイブarchive.today
^ タミルバーチャルアカデミー. 「付録4：UnicodeおよびTACE16用タイプライター拡張キーボードシーケンス」（PDF） . 16ビットエンコーディング（UnicodeおよびTACE16）用タミルフォントおよびタミルキーボードドライバーの開発に関する入札書類.チェンナイ.
^ abcd 「FAQ - タミル語と文字」。Unicodeコンソーシアム。
^ ab Yergeau, F. (1998). UTF-8, ISO 10646の変換フォーマット. IETF . doi : 10.17487/rfc2279 . RFC 2279.
^ 「Unicode文字エンコーディング安定性ポリシー」。Unicodeコンソーシアム。
^ West, Andrew (2006年9月14日). 「Precomposed Tibetan Part 1 : BrdaRten」. BabelStone .
^ 中国国家機関 (2003年10月20日). 「中国のBrdaRtenに関するアドホック声明」. ISO/IEC JTC1/SC2 /WG2 N2674.
^ Karlsson, Kent (2000-03-02). 「朝鮮語文字に関する北朝鮮の新作業項目提案に対するコメント」ISO/IEC JTC1/SC2 /WG2 N2167.
^ Cho, Chun-Hui (2000-07-05). 「10646-1: 2000における文字名と順序に関する朝鮮民主主義人民共和国の書簡」(PDF) . ISO/IEC JTC1/SC2 /WG2 N2231.
^ アナンタム、ARAmaithi (2012-01-26)。「新しいエンコーディングの提案」(PDF)。ユニコード。
^ 「非承認通知アーカイブ」. Unicode . 2012年3月5日.
^ Annamalai, M.; Arulalan, T., Open-Tamil: Python v3用のタミル語テキスト処理ツール、 2023年12月31日取得

[6] U 列と Ū 列で強調表示されている音節文字は、グリフの母音部分が、Unicode ブロックチャートの母音記号の組み合わせで示されている単純な下結合形式にも、右結合の Grantha 形式 (たとえば、Noto フォントで母音記号を単独で組み合わせる場合に使用) にも一致しないものです。

[7] ただし、異なるモデルを使用するチベット語と、 TIS-620から派生したモデルを使用するタイ語および関連文字を除く。

[TACE16Report-1] TACE16タスクフォースの最終勧告に関する報告書(PDF) (レポート).

[TNGovernmentTenderDocument-2] 「16ビットエンコーディング（UnicodeおよびTACE16）用のタミルフォントおよびタミルキーボードドライバーの開発に関する入札書類」（PDF）。タミルバーチャルアカデミー。

[KBDFonts-3] "தமிழ் எழுத்துருக்கள்".タミルバーチャルアカデミー。

[GO-4] タミル・ナードゥ州政府の命令（GO）、キーボードドライバーとフォント 2023年12月27日アーカイブarchive.today

[5] タミルバーチャルアカデミー. 「付録4：UnicodeおよびTACE16用タイプライター拡張キーボードシーケンス」（PDF） . 16ビットエンコーディング（UnicodeおよびTACE16）用タミルフォントおよびタミルキーボードドライバーの開発に関する入札書類.チェンナイ.

[unicodefaq-8] 「FAQ - タミル語と文字」。Unicodeコンソーシアム。

[rfc2279-9] Yergeau, F. (1998). UTF-8, ISO 10646の変換フォーマット. IETF . doi : 10.17487/rfc2279 . RFC 2279.

[10] 「Unicode文字エンコーディング安定性ポリシー」。Unicodeコンソーシアム。

[11] West, Andrew (2006年9月14日). 「Precomposed Tibetan Part 1 : BrdaRten」. BabelStone .

[12] 中国国家機関 (2003年10月20日). 「中国のBrdaRtenに関するアドホック声明」. ISO/IEC JTC1/SC2 /WG2 N2674.

[wg2-n2167-13] Karlsson, Kent (2000-03-02). 「朝鮮語文字に関する北朝鮮の新作業項目提案に対するコメント」ISO/IEC JTC1/SC2 /WG2 N2167.

[wg2-n2231-14] Cho, Chun-Hui (2000-07-05). 「10646-1: 2000における文字名と順序に関する朝鮮民主主義人民共和国の書簡」(PDF) . ISO/IEC JTC1/SC2 /WG2 N2231.

[15] アナンタム、ARAmaithi (2012-01-26)。「新しいエンコーディングの提案」(PDF)。ユニコード。

[16] 「非承認通知アーカイブ」. Unicode . 2012年3月5日.

[17] Annamalai, M.; Arulalan, T., Open-Tamil: Python v3用のタミル語テキスト処理ツール、 2023年12月31日取得

v t e 文字エンコーディング
初期の電気通信	電信コード針モールス非ラテン系和文・かな中国語キリルボードットとマレーフィールダータアスキー ISO/IEC 646 BCDIC テレテックスとビデオテックス/テレテキスト T.51/ISO/IEC 6937 ITU T.61 ITU T.101 ワールドシステムテレテキスト背景セットトランスコード
ISO/IEC 8859	承認部品 -1（西ヨーロッパ） -2（中央ヨーロッパ） -3（マルタ語/エスペラント語） -4（北ヨーロッパ） -5（キリル文字） -6（アラビア語） -7（ギリシャ語） -8（ヘブライ語） -9（トルコ語） -10（北欧） -11（タイ語） -13（バルト海） -14（セルティック） -15（新西ヨーロッパ） -16（ルーマニア語）廃棄された部品 -12（デーヴァナーガリー文字）提案されたが承認されなかった KOI-8 キリル文字サーミ適応ウェールズ語エストニア語ウクライナ語キリル文字
書誌的利用	MARC-8 アンセル CCCII/EACC ISO 5426 5426-2 5427 5428 6438 6862
国家基準	アームSCII ビッグ5 ブラSCII BSCII CNS 11643 DIN 66003 エロト 927 GOST 10859 GB 2312 GB 12345 GB 12052 GB 18030 香港科学アカデミー ISCII JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 KOI-7 KPS 9566 KS X 1001 KS X 1002 LST 1564 LST 1590-4 パスキーシフトJIS SI 960 TIS-620 TSCII ヴィシイ VSCII ユッシ
ISO/IEC 2022	ISO/IEC 8859 ISO/IEC 10367 拡張Unixコード/EUC
Mac OSコードページ（「スクリプト」）	アルメニア語アラビア語バレンツキリル文字ケルト中央ヨーロッパクロアチア語キリルデーヴァナーガリー文字ペルシア語フォントX（カーミット）ゲール語ジョージア語ギリシャ語グジャラート語グルムキー語ヘブライ語アイスランドイヌイットキーボードラテン語（カーミット）マルタ語/エスペラント語オガム文字ローマルーマニア語サーミトルコ語トルコ語キリル文字ウクライナ語 VT100
DOSコードページ	437 737 850 858 861 862 863 864 865 866 867 868 869 899 904 932 936 942 949 950 951 1040 1043 1046 1098 1115 1116 1117 1118 1127 アビコンプ CS インド語 CSXインディック CSX+インド CWI-2 イランシステムカメニツキーマゾフシェミク
IBM AIX コードページ	895 896 912 915 921 922 1006 1008 1009 1010 1012 1013 1014 1015 1016 1017 1018 1019 1046 1133
Windows コードページ	CER-GS 932 936 ( GBK ) 950 拡張ラテン8 1250 1251 1252 1253 1254 1255 1256 1257 1258 1270 キリル文字 + フランス語キリル文字 + ドイツ語ポリトニックギリシャ語
EBCDICコードページ	EBCDICの日本語 DKOI
DEC端末（VTx）	多国籍企業（MCS）国家代替（NRCS）フランス系カナダ人スイススペイン語イギリスオランダ語フィンランド語フランス語ノルウェー語とデンマーク語スウェーデン語ノルウェー語とデンマーク語（代替） 8ビットギリシャ語 8ビットトルコ語 SI 960 ヘブライ語特殊グラフィックテクニカル（TCS）
プラットフォーム固有	1052 1053 1054 1055 1058 エイコーンRISC OS アムストラッドCPC アップルII ATASCII アタリST ビックスカシオ電卓 CDC コンピュカラー 8001 コンピュカラーII CP/M+ 10進基数50 DEC MCS / NRCS DGインターナショナルガラクシア宝石 GSM 03.38 HPローマン HPフォーカル HP RPL スクウズ LICS LMBCS MSX NEC APC 次ペットシ PostScript規格ポストスクリプトラテン1 SAMクーペセガ SC-3000 シャープ電卓シャープMZ シンクレアQL テレテキスト TI電卓 TRS-80 ベンチュラ・インターナショナルウィスシー XCCS ZX80 ZX81 ZXスペクトラム
ユニコード / ISO/IEC 10646	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC GB 18030 DIN 91379 BOCU-1 CESU-8 サウスカロライナ州立大学 TACE16 Unicodeエンコーディングの比較
TeX組版システム	コルク LY1 OML OMS OT1
その他のコードページ	アビコンプ ASMO 449 APLシンボルのデジタル符号化 ISO-IR-68 ARIB STD-B24 フィールダータヘルツ IEC-P27-1 INIS 7ビット 8ビット ISO-IR-169 ISO 2033 鯉 KOI8-R KOI8-RU KOI8-U 文字鏡シーアスキースタンフォード/ITS シンボルトロン統一ハングルコード
制御文字	モールス信号 C0およびC1制御コード ISO/IEC 6429 JIS X 0211 Unicodeの制御文字、書式文字、区切り文字空白文字
関連トピック	CCSID HTMLの文字エンコーディング文字セット検出漢民族の統一ハードウェアコードページ MICRコード文字化け可変長エンコーディング
文字セット