1. ホーム
  2. utf-8

[解決済み] UTF-8は何文字までエンコードできますか?

2022-07-19 08:37:51

質問

UTF-8が8ビットだとすると、最大256種類の文字しか使えないということになりませんか?

最初の128個のコードポイントはASCIIと同じです。しかし、UTF-8は最大100万文字までサポートできると書いてあるのですが?

これはどのように機能するのでしょうか?

どのように解決するのですか?

UTF-8は1バイトをずっと使うわけではなく、1~4バイトを使います。

最初の128文字(US-ASCII)は1バイトが必要です。

次の 1,920 文字は、エンコードに 2 バイトが必要です。これは、ほとんどすべてのラテンアルファベットの残りと、ギリシャ、キリル、コプト、アルメニア、ヘブライ、アラビア、シリア、ターナのアルファベット、および Combining Diacritical Marks をカバーするものです。

3 バイトが基本多言語面の残りの文字に必要です。この面には、ほとんどの中国語、日本語、韓国語 [CJK] の文字を含む、一般的に使用されているほぼすべての文字[12]が含まれています。

4 バイトは、Unicode の他のプレーン内の文字に必要で、これには、あまり一般的ではない日中韓の文字、さまざまな歴史的なスクリプト、数学記号、および絵文字 (絵文字) が含まれます。

ソース ウィキペディア