UTF-1

UTF-1
MIME / IANAISO-10646-UTF-1
言語国際的
現在の状況あまり知られていないが、主に歴史的な興味の対象である。
分類Unicode変換形式拡張ASCII可変幅エンコーディング
拡張US-ASCII
変換/エンコードISO/IEC 10646 (ユニコード)
後継者UTF-8

UTF-1は、 ISO/IEC 10646 / Unicodeをバイトストリームに変換する旧式の方式です。その設計では自己同期が提供されていないため、部分文字列の検索やエラー回復が困難です。マルチバイトエンコードにASCII印刷文字を再利用するため、一部の用途には適していません(例えば、Unixファイル名にはスラッシュに使用されるバイト値を含めることができません)。また、UTF-1は2の累乗ではない数による除算と乗算を使用するため、エンコードとデコードが遅くなります。これらの問題により、UTF-1は普及せず、すぐにUTF-8に置き換えられました。

デザイン

UTF-8と同様に、 UTF-1 はASCIIと後方互換性のある可変幅のエンコーディングです。すべてのUnicodeコードポイントは、1 バイト、または 2 バイト、3 バイト、または5バイトのシーケンスで表されます。すべての ASCII コードポイントは 1 バイトです( U+0080からU+009Fのコードポイントも 1 バイトです)。

UTF-1は、マルチバイトエンコーディングにおいてC0およびC1制御コードやスペース文字を使用しません。0~ 0x20または0x7F~0x9Fの範囲のバイトは常に対応するコードポイントを表します。66個の保護文字を含むこの設計は、ISO/IEC 2022との互換性を確保しようと試みました

UTF-1は「モジュロ190」演算(256 − 66 = 190)を使用します。比較すると、UTF-8は128文字すべてのASCII文字を保護し、これに1ビット、さらに自己同期化のためにもう1ビットを必要とするため、「モジュロ64」演算(8 − 2 = 6、2 6 = 64)となります。BOCU -1はMIME互換性に必要な最小限の文字セット(0x00、0x07~0x0F、0x1A~0x1B、および0x20)のみを保護するため、「モジュロ243」演算(256 − 13 = 243)となります。


UTF-1
最初のコードポイント最後のコードポイントバイト1バイト2バイト3バイト4バイト5
0000U+009F00~9階
00A000FFA0A0~FF
0100U+4015A1~F521~7E、A0~FF
U+4016U+38E2DF6~FB21~7E、A0~FF21~7E、A0~FF
U+38E2EU+7FFFFFFFFC-FF21~7E、A0~FF21~7E、A0~FF21~7E、A0~FF21~7E、A0~FF
コードポイントUTF-8UTF-1
U+007F7階7階
U+0080C2 8080
U+009FC2 9F9階
00A0C2 A0A0 A0
U+00BFC2 BFA0 BF
00C0C3 80A0 C0
00FFC3 BFA0 FF
0100C4 80A1 21
U+015DC5 9DA1 7E
015EC5 9EA1 A0
U+01BDC6 BDA1 FF
U+01BEC6 BEA2 21
U+07FFDF BFAA72
U+0800E0 A0 80AA73
U+0FFFE0 バック バックB5 48
U+1000E1 80 80B5 49
U+4015E4 80 95F5 FF
U+4016E4 80 96F6 21 21
U+D7FFED 9F BFF7 2F C3
000EE 80 80F7 3A 79
U+F8FFEF A3 BFF7 5C 3C
U+FDD0EF B7 90F7 62 BA
U+FDEFEF B7 AFF7 62 D9
U+FEFFEF BB BFF7 64 4C
U+FFFDEF BF BDF7 65年
U+FFFEEF BF BEF7 65 AE
U+FFFFEF BF BFF7 65 AF
U+10000F0 90 80 80F7 65 B0
U+38E2DF0 B8 B8 ADFB FF FF
U+38E2EF0 B8 B8 AEFC 21 21 21 21
U+FFFFFF3 BF BF BFFC 21 37 B2 7A
U+100000F4 80 80 80FC 21 37 B2 7B
U+10FFFFF4 8F BF BFFC 21 39 6E 6C
U+7FFFFFFFFD BF BF BF BF BFFD BD 2B B9 40

現代の Unicode は U+10FFFF で終わりますが、UTF-1 と UTF-8 はどちらも元のユニバーサル文字セット( UCS-4 )の完全な 31 ビットをエンコードするように設計されており、この表の最後のエントリはこの元の最終コード ポイントを示しています。

参照

参考文献

  • 「Unicode標準:付録F FSS-UTF」(PDF)(PDF、768 KiB)。バージョン1.1。Unicode, Inc.
  • ISO/IEC JTC 1/SC2/WG2 (1993-01-21). 「ISO IR 178: UCS Transformation Format One (UTF-1)」(PDF) (PDF, 256 KiB) (第1版). 登録番号 178. 2015年3月18日時点のオリジナル(PDF)からのアーカイブ。{{cite web}}: CS1 maint: numeric names: authors list (link)
  • Czyborra, Roman (1998年11月30日). 「Unicode変換フォーマット:UTF-8など」. 2016年6月7日時点のオリジナルよりアーカイブ。 2016年6月7日閲覧
  • Yergeau, F. (2003年11月). UTF-8, ISO 10646の変換フォーマット. IETF . doi : 10.17487/RFC3629 . STD 63. RFC 3629.
Retrieved from "https://en.wikipedia.org/w/index.php?title=UTF-1&oldid=1314818407"