[解決済み] Pythonのunicode文字列のアクセントを除去（正規化）する最良の方法は何ですか？

2022-03-15 05:36:22

質問

PythonでUnicodeの文字列を持っていて、すべてのアクセント（発音区分）を削除したいのですが、どうすればよいですか？

私はこれを行うためのエレガントな方法をウェブで見つけました（Javaで）。

ユニコード文字列をその 長い正規化形式 (文字と発音記号は別の文字で)
Unicode タイプが "diacritic" であるすべての文字を削除します。

pyICUなどのライブラリをインストールする必要があるのでしょうか、それともPythonの標準ライブラリだけで可能なのでしょうか？また、Python3ではどうでしょうか？

重要：アクセント記号付きの文字からアクセント記号なしの文字への明示的なマッピングがあるコードは避けたいです。

解決方法は？

こんなのはどうでしょう。

import unicodedata
def strip_accents(s):
   return ''.join(c for c in unicodedata.normalize('NFD', s)
                  if unicodedata.category(c) != 'Mn')

これはギリシャ文字にも有効です。

>>> strip_accents(u"A \u00c0 \u0394 \u038E")
u'A A \u0394 \u03a5'
>>>

は文字カテゴリの略です。 Nonspacing_Mark これはMiniQuarkの回答にあるunicodedata.combiningに似ています（私はunicodedata.combiningを考えませんでしたが、より明確なので、おそらく良い解決策だと思います）。

そして、これらの操作はテキストの意味を大きく変える可能性があることに留意してください。アクセントやウムラウトなどは、quot;decoration"ではありません。

[解決済み] Pythonのunicode文字列のアクセントを除去（正規化）する最良の方法は何ですか？

質問

解決方法は？

関連

pythonサイクルタスクスケジューリングツールスケジュール詳解

Python LeNetネットワークの説明とpytorchでの実装

[解決済み】ValueError: xとyは同じサイズでなければならない

[解決済み] 文字列リテラルの前にある'b'文字は何を意味するのでしょうか？

[解決済み] Pythonで型をチェックする標準的な方法は何ですか？

[解決済み] Python 3 の "python -m SimpleHTTPServer" に相当するものは何ですか？

[解決済み] Pythonの "assert "はどのように使うのですか？

[解決済み] Python 3で文字列をバイトに変換する最良の方法？

[解決済み] .NETで文字列から発音区分符号（アクセント）を削除するにはどうすればよいですか？

[解決済み] 文字列を有効なファイル名に変換しますか？

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

opencvとpillowを用いた顔認証システム（デモあり）

pythonを使ったオフィス自動化コード例

python implement mysql add delete check change サンプルコード

[解決済み】Django: ImproperlyConfigured: SECRET_KEY 設定は空であってはならない

[解決済み] builtins.TypeError: strでなければならない、bytesではない

[解決済み】"No JSON object could be decoded "よりも良いエラーメッセージを表示する。

[解決済み】Pythonでgoogle APIのJSONコードを読み込むとエラーになる件

[解決済み】インポートエラー。モジュール名 urllib2 がない

[解決済み】LogisticRegression: Pythonでsklearnを使用して、未知のラベルタイプ： '連続'を使用しています。

[解決済み】ValueError: pickleプロトコルがサポートされていません。3、python2 pickleはpython3 pickleでダンプしたファイルを読み込むことができない？