ISO/IEC 8859-1

ISO/IEC 8859-1:1998
ISO/IEC 8859-1 コードページレイアウト
MIME / IANAISO-8859-1
エイリアスiso-ir-100、csISOLatin1、latin1、l1、IBM819、CP819
言語英語その他
標準ISO/IEC 8859
分類拡張ASCIIISO/IEC 8859
拡張US-ASCII
に基づく12月のMCS
後継者
その他の関連エンコーディング

ISO /IEC 8859-1:1998「情報技術- 8 ビットシングルバイトコード化グラフィック文字セット - パート 1: ラテン アルファベット No. 1」は、 ASCIIベースの標準文字エンコードのISO/IEC 8859シリーズの一部であり、第 1 版は 1987 年に発行されました。 ISO/IEC 8859-1 は、「ラテン アルファベット No. 1 」と呼ばれる、ラテン文字の191文字をエンコードします。この文字エンコード方式は、南北アメリカ西ヨーロッパオセアニア、およびアフリカの大部分で使用されています。これは、いくつかの一般的な 8 ビット文字セットと、 Unicodeの最初の 2 つの文字ブロックの基礎となっています。

2025年12月現在、全ウェブサイトの0.9%がISO/IEC 8859-1を使用しています。[ 1 ] [ 2 ]これは最も広く使用されているシングルバイト文字エンコーディングですが、ウェブブラウザとHTML5標準[ 3 ]はこれをWindows-1252のスーパーセットとして解釈するため、これらのドキュメントにはそのセットの文字が含まれる可能性があります。一部の国や言語では、世界平均よりも高い使用率が見られ、2025年のウェブサイト利用状況によると、ブラジルでは2.3%、[ 4 ]、ドイツでは2.3%となっています。[ 5 ] [ 6 ]

ISO-8859-1は(少なくとも標準規格によれば)、MIMEタイプが で始まるHTTP配信文書のデフォルトエンコーディングであり、特定の記述的HTTPヘッダーの値のデフォルトエンコーディングであり、HTML 3.2文書で許容される文字集合を定義していました。これは他の多くの標準規格でも規定されています。実際には、スーパーセットエンコーディングであるWindows-1252の方がより効果的なデフォルトエンコーディングであり、標準規格で規定されているかどうかに関わらずUTF-8 が動作することがますます一般的になっています。 text/

ISO-8859-1は、ISO/IEC 6429C0およびC1制御コードを補足した、この規格のIANA推奨名称です。他に、iso-ir-100csISOLatin1latin1l1IBM819コードページ28591 (WindowsではWindows-28591としても知られています)などの別名が登録されています。[ 7 ] IBMはこれをコードページ819またはCP819CCSID  819)と呼んでいます。[ 8 ] [ 9 ] [ 10 ] [ 11 ] OracleはこれをWE8ISO8859P1と呼んでいます。[ 12 ]

カバレッジ

このエンコーディングは、多くの言語の文字を十分にカバーしています。ISO-8859エンコーディングやASCIIエンコーディングと同様に、美しく正確なタイポグラフィに必要な、 enダッシュemダッシュ、波型引用符、ユーロ記号などの印刷記号は含まれていません。

完全な文字を網羅した現代言語

注記

  1. ^基本的な古典正書法
  2. ^ルミ文字
  3. ^ブークモール語とニーノシュク語
  4. ^ヨーロッパとブラジル

カバー範囲が不完全な言語

ISO-8859-1は、特定の言語で使用される文字が欠落しているにもかかわらず、広く使用されていました。ほとんどの場合、欠落している文字はごくわずかか、ほとんど使用されない程度で、何らかのタイポグラフィック近似を用いてISO-8859-1に含まれる文字に置き換えることができます。以下の表は、そのような言語の一覧です。

言語欠落している文字一般的な回避策支援
カタルーニャ語Ŀ、 ŀ (非推奨)L·、l·
デンマーク語Ǿ、ǿ(アクセントは任意であり、ǿは非常にまれです)Ø、ø、またはøe
オランダ語IJ、ij(議論の余地あり)、(「blíj́f」のような強調された単語)二重音字IJ、ij、または ÿ; blíjf
エストニア語フィンランド語Š、š、Ž、ž(借用語にのみ存在)シュ、シュ、ズ、ズISO-8859-15Windows-1252
フランス語Œ、œ、そして非常にまれなŸ二重音字OE, oe; Y または ÝISO-8859-15Windows-1252
ドイツ語(大文字のß、すべて大文字でのみ使用)有向字SSまたはSZ
ハンガリー語Ő、ő 、Ű、űÖ、ö、Ü、ü Õ、õ、Û、û (文字は8859-2で置き換えられます)ISO-8859-2Windows-1250
アイルランド語伝統的な正書法Ḃ, ḃ, Ċ, ċ, Ḋ, ḋ, Ḟ, ḟ, Ġ, ġ, Ṁ, ṁ, Ṗ, ṗ, Ṡ, ṡ, Ṫ, ṫBh、bh、Ch、ch、Dh、dh、Fh、fh、Gh、gh、Mh、mh、Ph、ph、Sh、sh、Th、thISO-8859-14
マルタ語Ċ、ċ、Ġ、ġ、Ħ、ħ、Ż、żハ、ハ、ソ、ト、ハ、ハ、ザ、ズISO-8859-3
ウェールズ語、 ẁ、、 ẃ、Ŵ、 ŵ、、 ẅ、、 ỳ、Ŷ、 ŷ、ŸW、w、Y、y、Ý、ýISO-8859-14

フランス語ではごく稀にしか登場しない文字「ÿ」は、主にL'Haÿ-les-Rosesのような都市名にのみ見られ、単語の先頭には決して現れないため、小文字でのみ含まれています。大文字に対応するスロットは、標準が作成された当時は 大文字がなかったドイツ語の小文字「ß」で占められています。

引用符

印刷上の(6または9の字型の)引用符は表示されません。また、一部のサポート対象言語で使用されるベースライン引用符も表示されません。« »" "、 のみ' 'が含まれます。一部のフォントでは、スペースのグレーブアクセント(0x60)とアポストロフィ(0x27)が、対応する一重引用符のペアとして表示されます(引用符については「§ タイプライターと初期のコンピュータ」を参照してください)。ただし、これは現代の標準とは見なされていません。

上付き数字

²上付き数字は0xB2、0xB3 ³、そして0xB9の3桁のみエンコードされており¹、上付き数字の0と4~9はエンコードされていません。また、下付き数字はエンコードされていません。回避策としては、この標準でカバーされていない数字についてはリッチテキスト形式を使用することです。

ユーロ記号

ユーロ記号は1996年12月12日に初めて公開されました。[ 13 ]この文字セットは1987年に導入されたため、ユーロ記号は含まれていません。ISO/IEC 8859-1に類似した後期の文字セット(Windows-1252ISO/IEC 8859-15など)にはユーロ記号が含まれています。

歴史

ISO 8859-1は、1983年にディジタル・イクイップメント・コーポレーション(DEC)が普及したVT220端末で使用した多国籍文字セット(MCS)に基づいています。これは欧州コンピュータ工業会(ECMA)内で開発され、1985年3月にECMA-94として発行されました[ 14 ]。現在でもこの名称で呼ばれることがあります。ECMA-94の第2版(1986年6月)[ 15 ]は、 ISO 8859-2ISO 8859-3、およびISO 8859-4も仕様の一部として 含まれています。

ISO 8859-1の原案では、フランス語のŒœは、MCSと同様にコードポイント215(0xD7)と247(0xF7)に配置されていました。しかし、言語学者でもタイポグラファーでもないフランスの代表は、これらが独立したフランス語文字ではなく、単なる合字fiflのような)であると誤って述べ、 Bull Publishing Companyの代表チームもこれを支持しました。Bull Publishing Companyは当時、社内スタイルでフランス語をŒ/œで印刷することはほとんどなかったからです。カナダの英語圏の代表はŒ/œの保持を主張しましたが、フランス代表とBullのチームに拒否されました。これらのコードポイントは、ドイツ代表の提案により、すぐに×と÷で埋められました。さらに、 ÿは「フランス語ではない」という誤った主張が再び行われ、大文字のŸが欠落したことで、フランス語への支持はさらに低下しました。実際、ÿという文字は多くのフランス語固有名詞に見られ、大文字は辞書や百科事典でも使用されています。[ 16 ]これらの文字はISO/IEC 8859-15:1999に追加されました。BraSCII原案と一致しています。

1985年、コモドールは新しいAmigaOSオペレーティングシステムにECMA-94を採用しました。[ 17 ] Amiga 1000で使用されていたセイコーシャMP-1300AIインパクトドットマトリックスプリンターにはこのエンコーディングが含まれていました。

1990 年、 Unicodeの最初のバージョンでは、最初の 256 個の Unicode コード ポイントとして ISO-8859-1 のコード ポイントが使用されました。

1992年、IANAは文字マップISO_8859-1:1987を登録しました。これは、ISO 8859-1のスーパーセットであり、 MIMEISO-8859-1 (ISO 8859-1の上にハイフンが追加されていることに注意)として広く知られています。このマップは、 C0およびC1制御コードを未割り当てのコード値に割り当てることで、あらゆる8ビット値を通じて256文字を提供します。

コードページレイアウト

ISO/IEC 8859-1
0 1 2 3 4 5 6 7 8 9 B C D E F
0x
1倍
2倍  SP !#$%'*+-/
3倍 0123456789:;<>?
4倍 @BCDEFGHJKLM
5倍 P質問RSTあなたVWXはいZ[\]^_
6倍 `1つのbcdefグラムhjlメートルno
7倍 pqrstあなたv×yz{|}
8倍
9倍
NBSP¡¢£¤¥¦§¨©ª¬シャイ®¯
バックス °±²³´µ·¸¹º»¼1/2¾¿
センチ ÂÃÄオーÆÇÈÊË
診断 ÐÑÒÓÔÕオーרÙÚÛÜÝÞß
àáâãäåæçèéêë
FX ðñòóôõö÷øùúûüýþÿ
  未定義
  記号と句読点
  ECMA-94(1985年)の最初のリリースでは未定義でした。[ 14 ]原案ではŒは0xD7、œは0xF7でした。

類似の文字セット

ISO/IEC 8859-15

ISO/IEC 8859-15 は、ISO/IEC 8859-1 の更新として 1999 年に開発されました。この規格では、ISO/IEC 8859-1 にはないフランス語とフィンランド語のテキスト用文字およびユーロ記号¤が提供されています。このため、分数記号や文字なしの分音記号 ( 、¦¨´¸¼½)など、使用頻度の低い一部の文字を ISO/IEC 8859-1 から削除する必要がありました。¾皮肉なことに、新たに追加された文字のうち 3 つ ( Œœ、 ) は、ISO/IEC 8859-1 (1987) の前身であるDECの 1983 年多国籍文字セットŸ(MCS)に既に存在していました。これらの元のコード ポイントは他の目的で再利用されるようになったため、これらの文字は、論理性が低い別のコード ポイントで再導入する必要がありました。

ISO-IR-204は、より小さな変更(FreeDOSではコードページ61235と呼ばれている)であり、 1998年に登録されました。これは、ISO-8859-1の国際通貨記号( ¤)をユーロ記号に置き換えたものです。[19 ]ISO - 8859-15で行われたのと同じ置き換え)

Windows-1252

広く普及しているWindows-1252文字セットは、 ISO/IEC 8859-15で規定されているすべての欠落文字に加え、いくつかの印刷記号を追加し、128~159( 16進数80~9F)の範囲にある、あまり使用されないC1制御文字を置き換えています。Windows-1252のテキストが誤ってISO-8859-1とラベル付けされることは非常によくあります。その結果、ワードプロセッサソフトウェアの「スマートクォート」によって生成されるすべての引用符とアポストロフィが、Windows以外のオペレーティングシステムでは疑問符または四角形に置き換えられ、テキストが読みにくくなることがよくありました。多くのWebブラウザや電子メールクライアントはISO-8859-1制御コードをWindows-1252文字として解釈し、この動作は後にHTML5で標準化されました。[ 20 ]

マック・ローマン

Apple Macintoshコンピュータは1984年にMac Romanと呼ばれる文字エンコーディングを導入しました。これは西ヨーロッパのデスクトップパブリッシングに適したものを目指したものでした。ASCIIのスーパーセットであり、ISO-8859-1に含まれる文字のほとんどとWindows-1252の追加文字をすべて含んでいますが、配列は全く異なります。ISO/IEC 8859-1には含まれているもののこのセットには含まれていない印刷可能な文字は少なく、古いMacintoshブラウザ(最新バージョンのInternet Explorer for Macなど)を使用してウェブサイトのテキストを編集する際に、しばしば問題の原因となります。

他の

DOS にはコード ページ 850 があり、これには ISO-8859-1 にあるすべての印刷可能な文字 (ただし配置はまったく異なります) と、コード ページ 437の最も広く使用されているグラフィック文字が含まれています。

1989年[ 21 ]から2015年にかけて、ヒューレット・パッカードは多くの電卓にISO-8859-1の別のスーパーセットを使用していました。この独自の文字セットは、単に「ECMA-94」と呼ばれることもありました。[ 21 ] HPにはコードページ1053もあり、0x7Fにミディアムシェード(▒、U+2592)が追加されています。[ 22 ]

いくつかのEBCDICコード ページは、ISO-8859-1 と同じ文字セットを持つように意図的に設計されており、それらの間での変換が容易です。

参照

参考文献

  1. ^ 「Webサイトの文字エンコーディングの使用統計の歴史的傾向、2025年12月」。W3Techs 2025年12月17日閲覧
  2. ^ Cowan, John; Soltano, Sam (2014年8月). 「文字エンコーディング統計の出典は?」 W3Techs . 2024年4月4日時点のオリジナルよりアーカイブ。
  3. ^ "Encoding" . WHATWG . 2015年1月27日. 5.2項「名前とラベル」. 2015年2月4日時点のオリジナルよりアーカイブ。 2015年2月4日閲覧
  4. ^ 「ブラジルの文字エンコーディングを使用するウェブサイトにおける文字エンコーディングの分布」 W3Techs 2025年7月9日閲覧
  5. ^ 「 . deを使用するウェブサイトにおける文字エンコーディングの分布」W3Techs 2025年7月9日閲覧
  6. ^ 「ドイツ語を使用するウェブサイトにおける文字エンコーディングの分布」W3Techs2024年4月4日時点のオリジナルよりアーカイブ2025年4月16日閲覧
  7. ^ 「コードページ識別子」 . Microsoft Corporation . 2010年12月19日閲覧。
  8. ^ 「コードページ819情報文書」 。2017年1月16日時点のオリジナルよりアーカイブ
  9. ^ 「CCSID 819情報文書」 。2016年3月27日時点のオリジナルよりアーカイブ
  10. ^コードページ CPGID 00819 (pdf) (PDF)、IBM
  11. ^コードページ CPGID 00819 (txt)、IBM
  12. ^ Baird, Cathy; Chiba, Dan; Chu, Winson; Fan, Jessica; Ho, Claire; Law, Simon; Lee, Geoff; Linsley, Peter; Matsuda, Keni; Oscroft, Tamzin; Takeda, Shige; Tanaka, Linus; Tozawa, Makoto; Trute, Barry; Tsujimoto, Mayumi; Wu, Ying; Yau, Michael; Yu, Tim; Wang, Chao; Wong, Simon; Zhang, Weiran; Zheng, Lei; Zhu, Yan; Moore, Valarie (2002) [1996]. 「付録A:ロケールデータ」. Oracle9i データベース・グローバリゼーション・サポート・ガイド(PDF) (リリース2 (9.2) 版). Oracle Corporation . Oracle A96529-01. 2017年2月14日時点のオリジナルからのアーカイブ(PDF) 2017年2月14日閲覧
  13. ^ “Typographers discuss the euro” . Evertype . 1996年12月. 2023年2月22日時点のオリジナルよりアーカイブ。 2023年4月28日閲覧
  14. ^ a b標準 ECMA-94: 8 ビット シングルバイト符号化グラフィック文字セット(PDF) (第 1 版)。欧州コンピュータ製造業者協会(ECMA)。1985 年 3 月 [1984-12-14]。2016-12-02にオリジナルからアーカイブ(PDF) 。2016-12-01 に取得。 […] 1982 年以来、ECMA と ANSI/X3L2 では 8 ビット シングルバイト符号化文字セットの緊急性が認識され、2 つのグループ間で多数の作業文書が交換されました。19842 月、ECMA TC1 は ISO/TC97/SC2 にそのような符号化文字セットの提案を提出しました。1984 年 4 月の会議で、SC は TC97 にこのトピックの新しい作業項目の提案を提出することを決定しました。この会議中および会議後の技術的な議論の結果、TC1はX3L2が提案した符号化方式を採用しました。国際標準案DTS 8859のパート1は、このANSI/ECMA共同提案に基づいています。[…] 1984年12月13~14日の総会でECMA規格として採択されました。[…]
  15. ^ 「ECMA-94第2版(1986年6月)」(PDF)
  16. ^アンドレ、ジャック (1996)。「ISO Latin-1、ヨーロッパの文字コードの標準? フランスの文字が欠落しています!」(PDF)Cahiers GUTenberg (フランス語) (25): 65–77 . doi : 10.5802/cg.205
  17. ^ Malyshev, Michael (2003-01-10). 「新しい文字セット [Amiga-1251] の登録」 . ATO-RU (Amiga Translation Organization - Russian Department). 2016年12月5日時点のオリジナルよりアーカイブ。 2016年12月5日閲覧
  18. ^ "Cpi/CPIISO/Codepage.TXT at master · FDOS/Cpi" . GitHub .
  19. ^ ITS情報技術標準化 (1998-09-16). EURO SIGN付きラテン1代替文字の補足セット(PDF) . ITSCJ/ IPSJ . ISO-IR -204.
  20. ^ van Kesteren, Anne (2015年1月27日). 「5.2 名前とラベル」 .エンコーディング標準. WHATWG . 2015年2月4日時点のオリジナルよりアーカイブ2015年2月4日閲覧。
  21. ^ a b HP 82240B赤外線プリンター(第1版)。米国オレゴン州コーバリス:ヒューレット・パッカード。1989年8月。HP再注文番号82240-90014。
  22. ^ 「コードページ1053」(PDF) 。2013年1月21日時点のオリジナル(PDF)からアーカイブ