1. ホーム
  2. Web制作
  3. ヒントとコツ

地域 インドネシア

2022-01-15 15:54:36

まず最初に、GB2312、GBK、UTF-8はすべて1つの文字コードであり、それ以外にも多くの文字コードが存在することを理解しておく必要があります。ただ、中国語のウェブサイトでは、この3つのエンコードを使うことが多いのです。なぜ文字コードが使われているのかを簡単に説明すると、コンピュータの中では、テキスト情報はASCIIコードで保存され、各文字は固有のASCIIコードに対応しています。元のコンピュータは、米国によって発明され、彼らはまた、キーボードと上記の文字を使用するので、その文字ASCII良い解決策です。しかし、我々は中国で異なっている、各中国語の文字は、一意のASCIIコードに対応する必要があります。このようにして、各国の文字エンコーディングの規格ができあがりました。GB2312、GBKなどです。他の国や言語にも、それぞれ対応するエンコーディングの規格があります。GBは国の標準、GB2312やGBKは主に漢字のエンコードに使われ、UTF-8は世界共通という意味です。つまり、中国語を使う中国人を主な対象としたWebページであれば、GB2312やGBKを使うのが非常によく、テキストの保存サイズも小さく、いくつかの利点があります。もし、あなたのWebページが世界向けで、WebエンコーディングにGB2312やGBKを使った場合、一部のコンピュータのブラウザにはそのようなエンコーディングがなく、あなたのWebページの漢字は認識できないちんぷんかんぷんなものになります。通常、ウェブページのメタタグに: などと記述し、そのページがGB2312エンコーディングであることを示します。この情報はブラウザに表示され、ブラウザはページヘッダから抽出されたエンコーディング情報を優先してページをデコードします。もちろん、ブラウザに特定のエンコーディングを強制してページを解釈させることもできるので、伝説の文字化けコードを見ることになります。

GBK、GB2312 などと UTF8 との変換は、Unicode で行う必要があります:。

GBK, GB2312--Unicode--UTF8
UTF8--ユニコード--GBK、GB2312

英字が多いウェブサイトやフォーラムでは、容量を節約するためにUTF-8を使用することが推奨されます。ただし、最近のフォーラムプラグインは、一般的にGBKにしか対応していないものが多いです。
中国語のサイトではGB2312を推奨 GBKはまだ少し問題がある すべての面倒なコードの問題を避けるために、UTF-8を使用する必要があり、それは将来の国際化をサポートするために非常に便利です UTF-8は、テキストのほとんどのエンコーディングを含む大きな文字セットと見なすことができます。

UTF-8を使用する利点として、他の地域(例えば香港や台湾)のユーザーが簡体字中国語サポートをインストールしなくても、*混乱することなく*テキストを見ることができることが挙げられます。*

<ブロッククオート

gb2312は簡体字中国語用のコードです。
gbkは簡体字中国語と繁体字中国語をサポートします。
big5 は繁体字中国語をサポートしています
utf-8はほぼ全ての文字に対応しています

中国本土で最もよく使われているコードはGBK18030で、この他にGBK、GB2312があり、これらのコードの関係はこのようになっています。最も古い漢字の符号化はGB2312で、漢字6763字とその他の記号682個が含まれています。1995年に改訂されてGBK1.0となり、21886個の記号が含まれるようになりました。その後、漢字27,484字とチベット語、モンゴル語、ウイグル語などの主要な少数民族文字を含むGBK18030というコードが導入された。現在、WINDOWSプラットフォームは、GBK18030コードをサポートする必要がある。

GB2312は、約6000字の漢字(特殊文字を除く)を含み、符号化範囲は第1ビットがb0-f7、第2ビットがa1-fe(第1ビットがcfの場合、第2ビットはa1-d3)で、漢字は6762字となります。もちろん、他の文字もある。制御キーなどを含めると、G B2312コードを拡張したgbkには約7573文字あり、さらに多くの文字を収容することができる。G B2312のエンコーディングはすべてそのまま残し、これをベースにエンコーディングの幅を広げています。合計22,014文字が含まれます(特殊文字を含む)。gb18030コードは、gbkコードを拡張したものです。漢字が増えたため、2ビットコードでは必要な文字数を収容できないので、2/4ビット混在を採用した。また、オリジナルのgbk 2バイト符号は、G B2312とgbk符号化ファイルに対応しています。約55657コード(特殊文字含む) ユニコード・エンコーディング(別名:UTFエンコーディング):一般にユニコードと呼ばれ、各国のテキストを表現するために統一されたエンコーディング・ガイドラインを使用することを目的としている。utf-8では、より多くの文字を表現するために、2/3混在符号化方式を採用しています。現在、収容できる漢字の範囲はgbkエンコーディングより小さい。また、中国語の3バイト化は互換性に問題があり、元のgbk, G B2312, gb18030のエンコーディングファイルは正しく扱えないため、まだまだ長い道のりが予想されます。

どのような

コンピュータに記憶されているのは、0と1の2値だけです。

8ビットが1バイトに相当し、16進数で表すのが一般的です。

では、コンピュータに表示される文字を、さまざまな0や1ではなく、欲しい文字にしたい場合、どのように実現すればいいのでしょうか。

ここでは、コンピュータが記憶している対応する16進数の値を取り出し、英語や他の言語の漢字を含む文字に変換して画面に出力させる必要があるのです。

つまり、エンコーディングとは、どの値がどの文字に対応するかを規定することでもあるのです。

つまり、文字エンコーディングとは、コンピュータに格納されている非常に多くの値のうち、どの値が、コンピュータの画面に表示されるアルファベットのどの文字に対応するかを指定する一連のルールを定義することです。

まとめると、GBKとGB2312は1つの文字コードであることが理解できるはずです。

では、両者の違いと共通点について詳しく説明しましょう。

類似点

1. GBKもGB2312も16bit!

2. 通常、Webページのmetaタグの中で使用されます。

相違点

1. GBKの文字コードは、簡体字中国語と繁体字中国語をサポートしています!

GBKは、中国語内部符号拡張仕様(GBK is the "national standard", "extension" of the first letter of the hanyu pinyin, English name: Chinese Internal Code Specification)の正式名称である。中華人民共和国情報技術標準化国家技術委員会が1995年12月1日に策定し、国家技術監督局標準化部、電子工業部科学技術品質監督局が共同で、1995年12月15日に技術監督標準化書第195号229として技術仕様に関する指導文書として制定した。

2. GB2312は簡体字中国語のみ対応!

情報交換用漢字符号化文字集合は、1980年に中国標準化総局が発行し、1981年5月1日に実施された国家規格であり、規格番号はGB 2312-1980である。
GB2312規格には、3755文字の一次文字と3008文字の二次文字を含む6763文字の漢字が含まれており、同時に、ラテン文字、ギリシャ文字、日本語のひらがな、カタカナ、ロシアのキリル文字を含む682文字の全角文字が含まれています。

中国語圏の方を主な対象としたWebページであれば、GB2312やGBKを使用すると、テキストの保存容量が小さくなるというメリットもあり、非常に良いと思います。もし、あなたが作成したウェブページが世界向けのものだった場合、GB2312とGBKをウェブエンコーディングとして使用すると、あなたのコンピュータのブラウザによってはこのエンコーディングを持たないものがあり、ウェブページの中国語コンテンツが認識できない失語症になってしまうのです。