[解決済み] ユニコードでマッピングできる文字の数は?
2023-04-20 11:36:34
質問
Unicodeで有効な組み合わせのカウントとその説明をお願いします。文字が1,2,3,4バイトとしてエンコードされることは知っています。私はまた、その文字の開始バイトは、それがどのように長いはずクリアされているにもかかわらず、継続バイトが制限を持っている理由を理解していない。
どのように解決するのですか?
Unicodeで有効な組み合わせの可能性を、説明付きでカウントしてほしいのです。
1,111,998 : 17機×65,536文字/機 - 2048サロゲート - 66ノンキャラクター
UTF-8とUTF-32は理論的には17プレーンよりずっと多く符号化することができますが、その範囲は UTF-16 エンコーディングの制限 .
137,929 のコードポイントは、実際には ユニコード12.1 .
また、文字列の開始バイトで長さがクリアされるにもかかわらず、継続バイトに制限があるのも理解できません。
UTF-8におけるこの制限の目的は、エンコーディングが を自己同期させるためです。 .
反例として、中国語の
GB 18030 エンコーディング
. そこでは、文字
ß
はバイト列で表現されます
81 30 89 38
のエンコーディングを含むバイト列として表現されます。
0
と
8
. ですから、このエンコーディング特有の癖を考慮に入れていない文字列検索機能を使うと、数字の
8
という数字を検索すると、文字
ß
.
UTF-8では、リードバイトとトレイルバイトの重なりがないため、短い文字のエンコーディングが長い文字のエンコーディングの中に入ることがないため、このようなことは起こりえません。
関連
-
[解決済み】このUnicode結合文字はどうなっているのか、どうすればフィルタリングできるのか?
-
[解決済み] エスケープ文字は何ですか?
-
[解決済み] 特定のUnicode文字を含むコメントでのJavaコードの実行が許可されているのはなぜですか?
-
[解決済み] HTMLで表示される上下の三角形(軸のない矢印)に使用できる文字は何ですか?
-
[解決済み] UTF-8とBOMなしUTF-8の違いは何ですか?
-
[解決済み] 最近のPerlはなぜデフォルトでUTF-8を避けるのですか?
-
[解決済み] Windowsのコマンドラインでunicode文字を使うには?
-
[解決済み】文字列がunicodeかasciiかを確認する方法は?
-
[解決済み】なぜ、Swiftの文字列では、?のような絵文字が奇妙に扱われるのですか?
-
[解決済み] UTF-8の「可変幅エンコーディング」はどのように機能するのですか?
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
[解決済み] エスケープ文字は何ですか?
-
[解決済み] 時間」を表すUnicodeの文字は?
-
[解決済み] 人を表すユニコード記号は?
-
[解決済み] UTF-8とBOMなしUTF-8の違いは何ですか?
-
[解決済み] UTF-8とUnicodeの違いは何ですか?
-
[解決済み] ASCIIとUnicodeの違いは何ですか?
-
[解決済み】Unicode、UTF、ASCII、ANSIのフォーマットの違いについて
-
[解決済み】Markdownの構文でディレクトリとファイル構造を表現する【終了しました
-
[解決済み] awk を使ってバイトオーダーマークを削除する
-
[解決済み] FPDF の utf-8 エンコーディング (HOW-TO)