情報交換のためのインド文字コード

コンテンツへジャンプ
フリー百科事典『ウィキペディア(Wikipedia)』より

インド標準情報交換コードISCII )は、インドのさまざまな表記体系を表すためのコード体系です。主要なインド諸語の文字とローマ字翻字をエンコードします。サポートされている文字体系は、ベンガル語(アッサム語)デーバナーガリー語、グジャラート語グルムキー、カンナダ語マラヤーラム語、オディア語タミルテルグ語です。ISCII はペルシア語に基づくインドの表記体系はエンコードしませんが、表記体系切り替えコードはカシミール語シンド語ウルドゥー語ペルシア語パシュトー語アラビア語に対応しています。ペルシア語に基づく表記体系はその後、PASCIIエンコードでエンコードされました。

ISCIIは一部の政府機関以外では広く使用されていませんが、 ATR機構のない変種がクラシックMac OSMac OS Devanagariで使用されていました[ 1 ]。現在ではUnicodeによってほぼ廃止されています。Unicodeはインド諸語の表記体系ごとに別々のブロックを使用し、各ブロック内ではISCIIのレイアウトをほぼそのまま維持しています[ 2 ]。462 

背景

[編集]

ブラーフミー文字由来の表記体系も同様の構造を持つ。[ 2 ] : 462 そのため、ISCIIは同じ音声値を持つ文字を同じコードポイントにエンコードし、様々な文字体系を重ね合わせている。例えば、ISCIIコード0xB3 0xDBは[ki]を表す。これはマラヤーラム語ではകി、デーヴァナーガリー語ではकि、グルムキー語ではਕਿ、タミル語ではகிと表示される。表記体系は、リッチテキストではマークアップによって、プレーンテキストでは後述するATRコードによって選択できる。

単一のエンコード方式を採用する理由の一つは、ある表記体系から別の表記体系への翻字が容易になるという点である[ 2 ] : 462 しかし、互換性がない部分が多いため、これは現実的ではない。

ISCIIは8ビットのエンコーディングです。[ 3 ] : 4 下位128コードポイントはプレーンASCIIで、上位128コードポイントはISCII固有のものです。文字を表すコードポイントに加えて、ISCIIはニーモニックATRを持つコードポイントを使用します。ATRは、後続のバイトに2種類の情報のいずれかが含まれていることを示します。1つの値セットは、次の書記体系インジケータまたは行末までの書記体系を変更します。もう1つの値セットは、太字や斜体などの表示モードを選択します。ISCIIはデフォルトの書記体系を示す手段を提供していません。

コードページレイアウト

[編集]

次の表はデーヴァナーガリー文字の文字セットを示しています。アッサム語、ベンガル語、グジャラート語、グルムキー語、カンナダ語、マラヤーラム語、オリヤー語、タミル語、テルグ語のコードセットは類似しており、各デーヴァナーガリー文字は各表記体系の同等の文字に置き換えられています[ 2 ] : 462。 各文字は、10進コードとUnicodeの同等文字とともに示されています

ISCIIデーヴァナーガリー文字[ 3 ] :14 
0123456789ABCDEF
0x ヌル SOH STX ETX EOT ENQ ACK ベル  BS   HT   LF   VT   FF   CR   SO   SI  
1x DLE DC1 DC2 DC3 DC4 NAK SYN ETB  EM  サブ ESC  FS   GS   RS   US 
2倍  SP  "#$%'*/
3倍0123456789
4倍@ABCDEFGHIJKLMNO
5倍PQRSTUVWXYZ[\]^_
6倍'abcdefghijklmno
7倍pqrstuvwxyz{|}~ デリート
8倍
9倍
Bx
Cx123456य़
DxINVि1234
5123456111ATR
為替内線1234512345
  未定義
  リードバイト

特殊コードポイント

[編集]
INV文字 - コードポイントD9 (217)
INV(不可視子音)文字は、結合要素を単独で表示するための擬似子音として使用されます。例えば、क (ka) + ् (halant) + INV = क्‍ (half ka) です。UnicodeではU+200D ZERO WIDTH JOINER ( ZWJ ) です。しかし、後述するように ISCII halant文字を重複させたり、ISCII nuktaと組み合わせたりすることで、 UnicodeのZWNJまたはZWJによって生成される効果を実現できます。このため、AppleはISCII INV文字をUnicodeの左から右への記号にマッピングし、ラウンドトリップを保証しています[ 1 ]
ATR文字 - コードポイントEF(239)
ATR(属性)文字にバイトコードが続く文字は、次のATRシーケンスまたは行末まで、異なるフォント属性(太字など)または異なるISCII言語またはPASCII言語(ベンガル語など)に切り替えるために使用されます。フォント属性はUnicodeの一部ではなく、各スクリプトには独自のコードポイントセットがあるため、これに直接対応するUnicode文字はありません。
プレゼンテーション属性[ 3 ] : 31 
ATR + バイトニーモニックフォーマットオプション
0x30BLD太字
0x31ITA斜体
0x32UL下線
0x33経験値拡張
0x34HLTハイライト
0x35OTLアウトライン
0x36SHDシャドウ
0x37TOP文字の上半分(LOWと組み合わせて2倍高の文字を作成するために使用)
0x38LOW文字の下半分(TOPと組み合わせて2倍高の文字を作成するために使用)
0x39DBL行全体を2倍幅・2倍高にする
ISCIIスクリプトにシフト[ 3 ] : 31 
ATR + バイトニーモニックISCIIスクリプト
0x40DEFデフォルトのスクリプト(改行後に元のスクリプトに戻るスクリプト)
0x41RMNローマ字表記
0x42DEVデーヴァナーガリー文字
0x43BNGベンガル文字
0x44TMLタミル文字
0x45TLGテルグ語
0x46ASMアッサム語
0x47ORIオディア文字
0x48KNDカンナダ文字
0x49MLMマラヤーラム語
0x4AGJRグジャラート文字
0x4BPNJグルムキー文字
PASCIIにシフト
ATR + バイトニーモニックPASCIIロケール
0x71ARBアラビア語アルファベット
0x72PESペルシア語アルファベット
0x73URDウルドゥー語アルファベット
0x74SNDシンディー語アルファベット
0x75KSMカシミール文字
0x76PSTパシュトゥー文字
EXT文字 - コードポイント F0 (240)
EXT(ヴェーダ語の拡張)文字にバイトコードが続く文字は、ヴェーダ語のアクセントを表します。ヴェーダ語のアクセントはそれぞれ異なるコードポイントに割り当てられているため、Unicodeには直接対応する文字がありません。
ハラント文字्—コードポイントE8(232)
ハラント文字は子音から暗黙の母音を削除し、子音の間に挿入されて結合子音を表すために使用されます。例えば、क (ka) + ् (halant) + त (ta) = क्त (kta) です。् (halant) + ् (halant) というシーケンスは、明示的なハラントを含む結合子音を表します。例えば、क (ka) + ् (halant) + ् (halant) + त (ta) = क्‌त です。् (halant) + ़ (nukta) というシーケンスは、半子音を含む結合子音を表します(可能な場合)。例えば、क (ka) + ् (halant) + ़ (nukta) + त (ta) = क्‍त です。
ISCII と Unicode のhalent/virama動作 の対応関係
ISCIIユニコード
単一のハラントE8ハラント094D
ハラント + ハラントE8 E8ハラント + ZWNJ094D 200C
ハラント + ヌクタE8 E9ハラント + ZWJ094D 200D
ヌクタ文字 ़ — コードポイント E9 (233)
他のISCII文字の後に続くnukta文字は、ISCIIのメインセットに存在しないいくつかの珍しい文字を表すために使用されます。例えば、क (ka) + ़ (nukta) = क़ (qa) です。これらの文字は、次の表に示すように、Unicodeで合成済み形式を持っています。
ISCII nuktaシーケンスに対応する単一のUnicode文字
ISCII
コードポイント
オリジナル
キャラクター

ヌクタのキャラクター
Unicode
コードポイント
A1 (161)9時50分
A6 (166)090C
A7 (167)0961
AA (176)10960
B3 (179)キャキャ0958
B4 (180)ख़0959
B5 (181)ग़095A
BA (186)ज़095B
BF (191)ड़095C
C0 (192)ढ़095D
C9 (201)फ़095E
DB (219)ि0962
DC (220)110963
DF (223)11944
EA (234)11093D

ISCII変換用のコードページ

[編集]

Unicode (UTF-8) から ISCII/ANSI コーディングに変換するには、次のコード ページを使用できます。

  • 57002: デヴァナーガリー (ヒンディー語、マラーティー語、サンスクリット語、コンカニ語)
  • 57003: ベンガル語
  • 57004: タミル語
  • 57005: テルグ語
  • 57006: アッサム語
  • 57007: オディア語
  • 57008: カンナダ語
  • 57009: マラヤーラム語
  • 57010: グジャラート語
  • 57011: パンジャブ語(グルムキー語)

すべての言語のコードポイント

[編集]

[編集]

[編集]
  1. ^ a b c d Unicode標準v15.0第12章(PDF) . Unicodeコンソーシアム. 閲覧
  2. ^ a b c d e IS13194:1991 (ソフトコピー) (PDF) . インド規格協会. 1999年.
  3. ^
  4. ^
    • 外部リンク
[編集]

    インド標準情報交換コードISCII )は、インドのさまざまな表記体系を表すためのコード体系です。主要なインド諸語の文字とローマ字翻字をエンコードします。サポートされている文字体系は、ベンガル語(アッサム語)デーバナーガリー語、グジャラート語グルムキー、カンナダ語マラヤーラム語、オディア語タミルテルグ語です。ISCII はペルシア語に基づくインドの表記体系はエンコードしませんが、表記体系切り替えコードはカシミール語シンド語ウルドゥー語ペルシア語パシュトー語アラビア語に対応しています。ペルシア語に基づく表記体系はその後、PASCIIエンコードでエンコードされました。

    ISCIIは一部の政府機関以外では広く使用されていませんが、 ATR機構のない変種がクラシックMac OSMac OS Devanagari)で使用されていました[1] 。現在ではUnicodeによってほぼ廃止されています。Unicodeはインド諸語の表記体系ごとに別々のブロックを使用し、各ブロック内ではISCIIのレイアウトをほぼそのまま維持しています。[2] : 462 

    背景

    ブラーフミー文字由来の表記体系は類似した構造を持っています。[2] :462 そのため、ISCIIは同じコードポイントで同じ音声値を持つ文字をエンコードし、様々な文字体系を重ね合わせます。例えば、ISCIIコード0xB3 0xDBは[ki]を表します。これはマラヤーラム語ではകി、デーヴァナーガリー語ではकि、グルムキー語ではਕਿ、タミル語ではகிと表示されます。表記体系は、マークアップによるリッチテキスト、または後述するATRコードによるプレーンテキストで選択できます

    単一のエンコード方式を採用する理由の一つは、ある表記体系から別の表記体系への翻字が容易になるという点である[2] : 462 しかし、互換性がない部分が多々あるため、これは現実的ではない。

    ISCIIは8ビットのエンコーディングです。[3] : 4 下位128コードポイントはプレーンASCIIで、上位128コードポイントはISCII固有のものです。文字を表すコードポイントに加えて、ISCIIはニーモニックATRを持つコードポイントを使用します。ATRは、後続のバイトに2種類の情報のいずれかが含まれていることを示します。1つの値セットは、次の書記体系インジケータまたは行末までの書記体系を変更します。もう1つの値セットは、太字や斜体などの表示モードを選択します。ISCIIはデフォルトの書記体系を示す手段を提供していません。

    コードページレイアウト

    次の表はデーヴァナーガリー文字の文字セットを示しています。アッサム語、ベンガル語、グジャラート語、グルムキー語、カンナダ語、マラヤーラム語、オリヤー語、タミル語、テルグ語のコードセットは類似しており、各デーヴァナーガリー文字は各表記体系の同等の文字に置き換えられています[2] : 462。 各文字は、10進コードとUnicodeの同等文字とともに示されています

    ISCIIデーヴァナーガリー文字[3] :14 
    0123456789ABCDEF
    0x ヌル SOH STX ETX EOT ENQ ACK ベル  BS   HT   LF   VT   FF   CR   SO   SI  
    1x DLE DC1 DC2 DC3 DC4 NAK SYN ETB  EM  サブ ESC  FS   GS   RS   US 
    2倍  SP  "#$%'*/
    3倍0123456789
    4倍@ABCDEFGHIJKLMNO
    5倍PQRSTUVWXYZ[\]^_
    6倍'abcdefghijklmno
    7倍pqrstuvwxyz{|}~ デリート
    8倍
    9倍
    Bx
    Cx123456य़
    DxINVि1234
    5123456111ATR
    為替内線1234512345
      未定義
      リードバイト

    特殊コードポイント

    INV文字 - コードポイントD9 (217)
    INV(不可視子音)文字は、結合要素を単独で表示するための擬似子音として使用されます。例えば、क (ka) + ् (halant) + INV = क्‍ (half ka) です。UnicodeではU+200D ZERO WIDTH JOINER ( ZWJ ) です。しかし、後述するように、ISCIIのhalant文字は、 UnicodeのZWNJまたはZWJによって生成される効果を得るために、ISCIIのnuktaと重複または結合することができます。このため、AppleはISCIIのINV文字をUnicodeの左から右への記号にマッピングし、ラウンドトリップを保証しています[1]
    ATR文字 - コードポイントEF(239)
    ATR(属性)文字にバイトコードが続く文字は、次のATRシーケンスまたは行末まで、異なるフォント属性(太字など)または異なるISCII言語またはPASCII言語(ベンガル語など)に切り替えるために使用されます。フォント属性はUnicodeの一部ではなく、各スクリプトには独自のコードポイントセットがあるため、これに直接対応するUnicode文字はありません。
    プレゼンテーション属性[3] : 31 
    ATR + バイトニーモニックフォーマットオプション
    0x30BLD太字
    0x31ITA斜体
    0x32UL下線
    0x33経験値拡張
    0x34HLTハイライト
    0x35OTLアウトライン
    0x36SHDシャドウ
    0x37TOP文字の上半分(LOWと組み合わせて2倍高の文字を作成するために使用)
    0x38LOW文字の下半分(TOPと組み合わせて2倍高の文字を作成するために使用)
    0x39DBL行全体を2倍幅・2倍高にする
    ISCIIスクリプトにシフト[3] : 31 
    ATR + バイトニーモニックISCIIスクリプト
    0x40DEFデフォルトのスクリプト(改行後に元のスクリプトに戻るスクリプト)
    0x41RMNローマ字表記
    0x42DEVデーヴァナーガリー文字
    0x43BNGベンガル文字
    0x44TMLタミル文字
    0x45TLGテルグ語
    0x46ASMアッサム語
    0x47ORIオディア文字
    0x48KNDカンナダ文字
    0x49MLMマラヤーラム語
    0x4AGJRグジャラート文字
    0x4BPNJグルムキー文字
    PASCIIにシフト
    ATR + バイトニーモニックPASCIIロケール
    0x71ARBアラビア語アルファベット
    0x72PESペルシア語アルファベット
    0x73URDウルドゥー語アルファベット
    0x74SNDシンディー語アルファベット
    0x75KSMカシミール文字
    0x76PSTパシュトゥー文字
    EXT文字 - コードポイント F0 (240)
    EXT(ヴェーダ語の拡張)文字にバイトコードが続く文字は、ヴェーダ語のアクセントを表します。ヴェーダ語のアクセントはそれぞれ異なるコードポイントに割り当てられているため、Unicodeには直接対応する文字がありません。
    ハラント文字्—コードポイントE8(232)
    ハラント文字は子音から暗黙の母音を削除し、子音の間に挿入されて結合子音を表すために使用されます。例えば、क (ka) + ् (halant) + त (ta) = क्त (kta) です。् (halant) + ् (halant) というシーケンスは、明示的なハラントを含む結合子音を表します。例えば、क (ka) + ् (halant) + ् (halant) + त (ta) = क्‌त です。् (halant) + ़ (nukta) というシーケンスは、半子音を含む結合子音を表します(可能な場合)。例えば、क (ka) + ् (halant) + ़ (nukta) + त (ta) = क्‍त です。
    ISCII と Unicode のhalent/virama動作 の対応関係
    ISCIIユニコード
    単一のハラントE8ハラント094D
    ハラント + ハラントE8 E8ハラント + ZWNJ094D 200C
    ハラント + ヌクタE8 E9ハラント + ZWJ094D 200D
    ヌクタ文字 ़ — コードポイント E9 (233)
    他のISCII文字の後に続くnukta文字は、ISCIIのメインセットに存在しないいくつかの珍しい文字を表すために使用されます。例えば、क (ka) + ़ (nukta) = क़ (qa) です。これらの文字は、次の表に示すように、Unicodeで合成済み形式を持っています。
    ISCII nuktaシーケンスに対応する単一のUnicode文字
    ISCII
    コードポイント
    オリジナル
    キャラクター

    ヌクタのキャラクター
    Unicode
    コードポイント
    A1 (161)9時50分
    A6 (166)090C
    A7 (167)0961
    AA (176)10960
    B3 (179)キャキャ0958
    B4 (180)ख़0959
    B5 (181)ग़095A
    BA (186)ज़095B
    BF (191)ड़095C
    C0 (192)ढ़095D
    C9 (201)फ़095E
    DB (219)ि0962
    DC (220)110963
    DF (223)11944
    EA (234)11093D

    ISCII変換用のコードページ

    Unicode (UTF-8) から ISCII/ANSI コーディングに変換するには、次のコード ページを使用できます。

    • 57002: デヴァナーガリー (ヒンディー語、マラーティー語、サンスクリット語、コンカニ語)
    • 57003: ベンガル語
    • 57004: タミル語
    • 57005: テルグ語
    • 57006: アッサム語
    • 57007: オディア語
    • 57008: カンナダ語
    • 57009: マラヤーラム語
    • 57010: グジャラート語
    • 57011: パンジャブ語(グルムキー語)

    すべての言語のコードポイント

    [編集]

    1. ^ abcd The Unicode Standard v15.0 Chapter 12 (PDF) . The Unicode Consortium . 閲覧
    2. ^ abcde IS13194:1991 (ソフトコピー) (PDF) . インド規格協会. 1999年.
    3. ^
    4. ^
      • 外部リンク
    • Padma – ISCIIをUnicodeに変換するMozilla拡張機能。Wayback Machineに2019年10月1日アーカイブ
    • Padma – テルグ語用ISCIIからUnicodeへの変換ツール
    • Padma – テルグ語用ISCIIからUnicodeへの変換ツール
    • ISCII と Unicode 間の PHP スクリプト
    Retrieved from "https://en.wikipedia.org/w/index.php?title=Indian_Script_Code_for_Information_Interchange&oldid=1324890824"
    Original text
    Rate this translation
    Your feedback will be used to help improve Google Translate