1. ホーム
  2. unicode

[解決済み] ASCIIとUnicode+UTF-8の比較

2022-03-02 23:52:18

質問

読んでいたもの Joel Spolskyの「The Absolute Minimum」で文字コードについて解説しています。 . ASCII は Code-point + Encoding scheme で、現代では Code-point scheme として Unicode を、Encoding scheme として UTF-8 を使っていると理解しています。これは正しいのでしょうか?

どのように解決するのですか?

はい、ただしUTF-8は an エンコード方式です。その他の符号化方式としては、UTF-16(2種類のバイトオーダーを持つ)、UTF-32があります。(混乱を避けるため、マイクロソフト社のソフトウェアでは、UTF-16スキームを「ユニコード」と呼んでいます)。

また、正確には、ASCIIを定義するアメリカ国家規格は、文字の集まりとそのコーディングを7ビット量として規定しており、バイト単位で特定の転送エンコーディングを指定しているわけではありません。かつては、5つのASCII文字を36ビットの記憶単位にまとめたり、8ビットバイトをチェック目的(パリティビット)や転送制御のために余分なバイトを使用するなど、さまざまな方法で使用されていた。しかし現在では、1つのASCII文字を、最初のビットを0に設定した1つの8ビットバイトとしてエンコードするように使用されています。これは デファクト 標準的な符号化方式で、多くの仕様で暗示されていますが、厳密にはASCII規格の一部ではありません。