[解決済み】このUnicode結合文字はどうなっているのか、どうすればフィルタリングできるのか?
質問内容
กิิิิิิิิิิิิิิิิิ ก้้้้้้้้้้้้้้้้้้้้้้้้้้้้้่อ็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็ัิิิิิิิิิิิิ็็็็็็้้้้้่อ็็้้้้้้ ก็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็ิิิิิิิิิิิิิิิิิิิิิิิิิิิิิิิิิิิิิิิิิิิ์้้้้้้้้้่้้้้้้้้้้้้้้้้้ำ กั็็็็ิิิิิิิิิ กิิิิิิิิิิิิิิิิ ก้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้่อ็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็ิิิิิิิิิิิิิิิิิิิิิิิิิิิิิิิิิิิิิิ์้้้้้้้้่้่้้้้้่้้้้้้่้้้้้่้้้่้้้้่้้่้้้้้้้้้้้้้้้้้้้้้่้้้้้้
最近、facebookのコメント欄で見かけたものです。
どのようにサニタイズすればいいのでしょうか?
どのように解決するのですか?
<ブロッククオートこのユニコード文字はどうなっているのですか?
が連なった文字ですね。 結合文字 . 問題の結合文字は、基本文字の上に行きたいので、(文字通り)積み重なるのです。例えば、以下のような場合です。
ก้้้้้้้้้้้้้้้้้้้้
...それは、ก(タイ文字 コ・カイ ) ( U+0E01 )の後に、タイ語の結合文字である マイトー ( U+0E49 ).
これをどのようにサニタイズすればよいのでしょうか?
あなた かもしれない テキストを前処理して、1つの文字に適用できる結合文字の数を制限しますが、その労力は見返りに見合わないかもしれません。現在のすべての文字のデータシートが必要なので、その文字が結合文字かどうかがわかりますし、言語によっては1つのベースに複数の発音区分が書かれているものもあるので、少なくともいくつかは許可する必要があります。さて、コメントをラテン文字セットに限定するのであれば、より簡単な範囲チェックになりますが、もちろんそれは、コメントをいくつかの言語だけに限定したい場合にのみ選択可能な方法です。より詳しい情報、コードシートなどはこちらで ユニコード・オルグ .
ところで、ある文字がどのように構成されたかを知りたい場合、つい最近、別の質問のために、私は Quick-and-dirty "Unicode Show Me"ページ をJSBinで公開しています。テキストエリアにテキストをコピー&ペーストするだけで、そのテキストが構成するすべてのコードポイント(〜文字)が表示され、上記のような各文字の説明ページへのリンクが表示されます。JavaScriptで書かれているので、U+FFFF以上の文字をJavaScriptで扱うには、この質問のためにしたい以上の作業をしなければならないからです(JavaScriptでは、"文字"は、以下のようになります)。 常に 16ビットなので、言語によっては1つの文字が2つのJavaScriptの"文字"に分かれてしまうことがあり、それを考慮していませんでした)でも、ほとんどのテキストには便利なんですよ......。
関連
-
[解決済み] 次の Unicode 文字列 \xe9 は何ですか。
-
[解決済み] エスケープ文字は何ですか?
-
[解決済み] UnicodeEncodeError: 'ascii' codec can't encode character u'\xa0' in position 20: ordinal not in range(128)
-
[解決済み] 真ん中の大きな弾丸を表すユニコード文字は何になるのでしょうか?
-
[解決済み] 特定のUnicode文字を含むコメントでのJavaコードの実行が許可されているのはなぜですか?
-
[解決済み] UTF-8とBOMなしUTF-8の違いは何ですか?
-
[解決済み] ASCIIとUnicodeの違いは何ですか?
-
[解決済み] Windowsのコマンドラインでunicode文字を使うには?
-
[解決済み】Markdownの構文でディレクトリとファイル構造を表現する【終了しました
-
[解決済み】「検索」を表すユニコードグリフシンボルはありますか【終了しました
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
[解決済み】このUnicode結合文字はどうなっているのか、どうすればフィルタリングできるのか?
-
[解決済み] 次の Unicode 文字列 \xe9 は何ですか。
-
[解決済み] エスケープ文字は何ですか?
-
[解決済み] ノンチャラクターU+FDD0~U+FDEFは何のためにあるのですか?
-
[解決済み] 人を表すユニコード記号は?
-
[解決済み] 真ん中の大きな弾丸を表すユニコード文字は何になるのでしょうか?
-
[解決済み] Zalgoテキストはどのように機能しますか?
-
[解決済み] UTF-8、UTF-16、およびUTF-32
-
[解決済み】Markdownの構文でディレクトリとファイル構造を表現する【終了しました
-
[解決済み】「検索」を表すユニコードグリフシンボルはありますか【終了しました