[解決済み] Pythonのunicode文字列のアクセントを除去(正規化)する最良の方法は何ですか?
2022-03-15 05:36:22
質問
PythonでUnicodeの文字列を持っていて、すべてのアクセント(発音区分)を削除したいのですが、どうすればよいですか?
私はこれを行うためのエレガントな方法をウェブで見つけました(Javaで)。
- ユニコード文字列をその 長い正規化形式 (文字と発音記号は別の文字で)
- Unicode タイプが "diacritic" であるすべての文字を削除します。
pyICUなどのライブラリをインストールする必要があるのでしょうか、それともPythonの標準ライブラリだけで可能なのでしょうか? また、Python3ではどうでしょうか?
重要:アクセント記号付きの文字からアクセント記号なしの文字への明示的なマッピングがあるコードは避けたいです。
解決方法は?
こんなのはどうでしょう。
import unicodedata
def strip_accents(s):
return ''.join(c for c in unicodedata.normalize('NFD', s)
if unicodedata.category(c) != 'Mn')
これはギリシャ文字にも有効です。
>>> strip_accents(u"A \u00c0 \u0394 \u038E")
u'A A \u0394 \u03a5'
>>>
は
文字カテゴリ
の略です。
Nonspacing_Mark
これはMiniQuarkの回答にあるunicodedata.combiningに似ています(私はunicodedata.combiningを考えませんでしたが、より明確なので、おそらく良い解決策だと思います)。
そして、これらの操作はテキストの意味を大きく変える可能性があることに留意してください。アクセントやウムラウトなどは、quot;decoration"ではありません。
関連
-
pythonサイクルタスクスケジューリングツール スケジュール詳解
-
Python LeNetネットワークの説明とpytorchでの実装
-
[解決済み】ValueError: xとyは同じサイズでなければならない
-
[解決済み] 文字列リテラルの前にある'b'文字は何を意味するのでしょうか?
-
[解決済み] Pythonで型をチェックする標準的な方法は何ですか?
-
[解決済み] Python 3 の "python -m SimpleHTTPServer" に相当するものは何ですか?
-
[解決済み] Pythonの "assert "はどのように使うのですか?
-
[解決済み] Python 3で文字列をバイトに変換する最良の方法?
-
[解決済み] .NETで文字列から発音区分符号(アクセント)を削除するにはどうすればよいですか?
-
[解決済み] 文字列を有効なファイル名に変換しますか?
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
opencvとpillowを用いた顔認証システム(デモあり)
-
pythonを使ったオフィス自動化コード例
-
python implement mysql add delete check change サンプルコード
-
[解決済み】Django: ImproperlyConfigured: SECRET_KEY 設定は空であってはならない
-
[解決済み] builtins.TypeError: strでなければならない、bytesではない
-
[解決済み】"No JSON object could be decoded "よりも良いエラーメッセージを表示する。
-
[解決済み】Pythonでgoogle APIのJSONコードを読み込むとエラーになる件
-
[解決済み】インポートエラー。モジュール名 urllib2 がない
-
[解決済み】LogisticRegression: Pythonでsklearnを使用して、未知のラベルタイプ: '連続'を使用しています。
-
[解決済み】ValueError: pickleプロトコルがサポートされていません。3、python2 pickleはpython3 pickleでダンプしたファイルを読み込むことができない?