[解決済み] 実際に使われている非BMPのUnicode文字で最も多いものは何ですか?[クローズド]
2022-05-14 10:04:45
質問
あなたの経験では、BMP (Basic Multilingual Plane) の外にある、どの Unicode 文字、コードポイント、範囲がこれまでで最も一般的でしたか?これらは、UTF-8 で 4 バイトを必要とするもの、または UTF-16 でサロゲートを必要とするものです。
私は、最も普及している日中韓マルチバイト文字セットに含まれていない、名前に使用される中国語や日本語の文字が答えになると予想していました。しかし、私が最も多く作業しているプロジェクトである英語版 Wiktionary では ゴシック アルファベット が今のところはるかに一般的です。
アップデイト
私はウィキペディア全体をスキャンして非BMP文字を探すソフトウェアをいくつか書きましたが、驚いたことに、日本語版ウィキペディアでもゴシック文字が最も一般的であることがわかりました。これは中国の Wikipedia でも同じですが、50 回から 70 回も使用されている漢字が多く、その中には "、"、"、"が含まれていました。
どのように解決するのですか?
絵文字は現在、BMP 以外の文字として圧倒的によく使われています。U+1F602 FACE WITH TEARS OF JOY として知られる「?」は、Twitter のパブリック ストリームで最もよく見られるものです。チルダよりも頻度が高いのです!
関連
-
[解決済み】このUnicode結合文字はどうなっているのか、どうすればフィルタリングできるのか?
-
[解決済み] エスケープ文字は何ですか?
-
[解決済み] テキストがボックスで表示されるのはどういう意味ですか?
-
[解決済み] ASCIIとUnicode+UTF-8の比較
-
[解決済み] Pythonのunicode文字列のアクセントを除去(正規化)する最良の方法は何ですか?
-
[解決済み] UTF-8とUnicodeの違いは何ですか?
-
[解決済み] UTF-8、UTF-16、およびUTF-32
-
[解決済み] ASCIIとUnicodeの違いは何ですか?
-
[解決済み] Windowsのコマンドラインでunicode文字を使うには?
-
[解決済み】Unicode、UTF、ASCII、ANSIのフォーマットの違いについて
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
[解決済み】このUnicode結合文字はどうなっているのか、どうすればフィルタリングできるのか?
-
[解決済み] ノンチャラクターU+FDD0~U+FDEFは何のためにあるのですか?
-
[解決済み] 文字列の長さに応じて文字列をトリミングする
-
[解決済み] テキストがボックスで表示されるのはどういう意味ですか?
-
[解決済み] 時間」を表すUnicodeの文字は?
-
[解決済み] 人を表すユニコード記号は?
-
[解決済み] Javascriptでテキストの一文字一文字を処理するには?
-
[解決済み] MySQLのutf8mb4とutf8 charsetsの違いは何ですか?
-
[解決済み】Markdownの構文でディレクトリとファイル構造を表現する【終了しました
-
[解決済み】UnicodeとUTF-8の違いは何ですか?重複