1. ホーム
  2. Web制作
  3. ヒントとコツ

地域 インドネシア

2022-01-01 14:11:45

まず理解しておきたいのは、GB2312、GBK、UTF-8はすべてひとつの文字コードであり、それ以外にもさまざまな文字コードが存在するということです。ただ、私たちの中国語サイトでは、この3つのエンコードを使うことが多いだけなのです。なぜ文字コードが使われているのかを簡単に説明すると、コンピューター内では、テキスト情報はASCIIコードで保存され、各文字は固有のASCIIコードに対応しています。元のコンピュータは、米国によって発明され、彼らはまた、キーボードと上記の文字を使用するので、その文字ASCII良い解決策です。しかし、我々は中国で異なっている、各中国語の文字は、一意のASCIIコードに対応する必要があります。このようにして、各国の文字エンコーディングの規格ができあがりました。GB2312、GBKなどです。他の国や言語にも、それぞれ対応するエンコーディングの規格があります。GBは国の標準、GB2312やGBKは主に漢字のエンコードに使われ、UTF-8は世界共通という意味です。つまり、中国語を使う中国人を主な対象としたWebページであれば、GB2312やGBKを使うのが非常によく、テキストの保存サイズも小さく、いくつかの利点があります。もし、あなたのWebページが世界向けで、WebエンコーディングにGB2312やGBKを使った場合、一部のコンピュータのブラウザにはそのようなエンコーディングがなく、あなたのWebページの漢字は認識できないちんぷんかんぷんなものになります。通常、ウェブページのメタタグに: などと記述し、そのページがGB2312エンコーディングであることを示します。この情報はブラウザに表示され、ブラウザはページヘッダから抽出されたエンコーディング情報を優先してページをデコードします。もちろん、ブラウザに特定のエンコーディングを使わせてページを解釈させることもできるので、伝説の文字化けコードを見ることもできます。

GBK、GB2312等とUTF8は、Unicodeで相互に変換する必要があります。

GBK、GB2312--ユニコード--UTF8
UTF8--ユニコード--GBK、GB2312

英字の多いウェブサイトやフォーラムでは、容量を節約するためにUTF-8を使用することが推奨されます。ただし、最近のフォーラムプラグインは一般的にGBKにしか対応していないものが多くなっています。
中国語のサイトではGB2312を推奨 GBKはまだ少し問題がある 全ての文字化け問題を避けるためには、UTF-8を使うべきで、将来の国際化対応にとても便利です UTF-8は大きな文字セットと見ることができ、ほとんどのテキストのエンコーディングが含まれています。

UTF-8を使用する利点として、他の地域(香港や台湾など)のユーザーは、簡体字中国語サポートをインストールしなくても、あなたのテキストを*乱すことなく*閲覧することができることが挙げられます。*

gb2312は簡体字中国語のコードです。
gbkは簡体字中国語と繁体字中国語をサポートしています。
big5 は繁体字中国語をサポートしています
utf-8はほぼ全ての文字に対応しています。

中国本土で最もよく使われているコードはGBK18030で、この他にGBK、GB2312があり、これらのコードの関係はこのようになっています。最も古い漢字コードは GB2312 で、漢字 6763 字とその他の記号 682 字が含まれています。1995年に改訂されGBK1.0となり、21886個の記号が含まれています。その後、GBK18030というコードが導入され、合計27484文字の漢字と、チベット語、モンゴル語、ウイグル語などの主要な少数民族の文字が含まれるようになった。現在、WINDOWSプラットフォームは、GBK18030コードに対応する必要がある。

{GB2312 GB2312エンコーディングは約6000字の漢字(特殊文字を除く)を含み、符号化範囲は第1ビットがb0-f7、第2ビットがa1-fe(第1ビットがcfの場合、第2ビットはa1-d3)、漢字の数は6762文字である。もちろん、それ以外の文字もある。制御キーなどを含めると、G B2312コードを拡張したgbkでは約7573文字となり、より多くの文字を収容することができる。G B2312のエンコーディングはすべてそのまま残し、これをベースにエンコーディングの幅を広げています。合計22,014文字が含まれます(特殊文字を含む)。gb18030コードは、gbkコードを拡張したものです。漢字が増えたため、2ビットコードでは必要な文字数を収容できないので、2/4ビット混在を採用した。また、オリジナルのgbk 2バイト符号は、G B2312とgbk符号化ファイルに対応しています。約55657コード(特殊文字含む) ユニコード・エンコーディング(別名:UTFエンコーディング):一般にユニコードと呼ばれ、各国のテキストを表現するために統一されたエンコーディング・ガイドラインを使用することを目的としている。utf-8では、より多くの文字を表現するために、2/3混在符号化方式を採用しています。現在、収容できる漢字の範囲はgbkエンコーディングより小さい。また、中国語の3バイト処理は互換性に問題があり、オリジナルのgbk, G B2312, gb18030のエンコーディングファイルは正しく処理できず、そこにsti

0と1の2進数の値がコンピューターに記憶されています。

8ビットが1バイトに相当し、16進数で表現されることが多い。

では、0や1の様々な数字ではなく、欲しい文字をコンピュータに表示させたい場合、どのように実現すればいいのでしょうか。

ここでは、コンピュータが記憶している対応する16進数の値を、英語や中国語などの対応する文字に変換して、画面に出力させる必要があります。

つまり、エンコーディングとは、どの値がどの文字に対応するかを規定することでもあるのです。

つまり、文字コード化とは、コンピュータに格納されている非常に多くの値のうち、どの値がコンピュータの画面に表示される文字に対応するかを指定する一連のルールを定義することなのです。

まとめると、GBKとGB2312は文字コードの一種であることが理解できるのではないでしょうか?

では、両者の違いや共通点について、もう少し詳しくお話ししましょう。

類似点

1. GBKもGB2312も16bit!

2. 通常、Webページのmetaタグの中で使用されます。

相違点

1. GBK文字コードは簡体字中国語と繁体字中国語に対応!

/p

GBKフルネーム「中国語内部コード拡張仕様」(「国家標準」であるGBK、羽生ピンインの最初の文字を「拡張」、英語名:Chinese Internal Code Specification)です。1995年12月1日に中華人民共和国情報技術標準化国家技術委員会が設立され、国家技術監督局標準化部と電子工業部科学技術品質監督局が共同で、1995年12月15日に技術監督標準化書第195号229として技術仕様の指導文書に制定した。

2、GB2312は簡体字のみ対応!

情報交換用漢字符号化文字集合は、1980年に中国標準化総局が発行し、1981年5月1日に実施された国家規格で、規格番号はGB 2312-1980である。
GB2312は、漢字6763字(主文字3755字、副文字3008字)、全角682字(ラテン文字、ギリシャ文字、日本語のひらがな、カタカナ、ロシア語のキリル文字)が収録されています。

中国語を使う中国人がメインのWebページであれば、GB2312やGBKを使うのが非常によく、テキストの保存サイズも小さくなり、メリットもあります。もし、あなたのウェブページが世界向けで、ウェブエンコーディングにGB2312とGBKを使うと、一部のコンピュータのブラウザはこのエンコーディングを持っていないので、ウェブページの中国語コンテンツは認識できないほどめちゃくちゃになってしまうでしょう。