PythonでXML/HTMLエンティティをUnicode文字列に変換する [重複]。
2023-09-25 10:25:33
質問
私はいくつかのウェブスクレイピングをしていて、サイトは頻繁に非アスキー文字を表現するためにHTMLエンティティを使用します。Pythonは、HTMLエンティティを持つ文字列を取り、ユニコードタイプを返すユーティリティを持っているのでしょうか?
例えば
戻ってくる。
ǎ
で、トーンマーク付きの"ǎ"を表します。 バイナリでは16ビットの01ceとして表現される。 このhtmlの実体を、次のような値に変換したい。
u'\u01ce'
どのように解決するのですか?
標準の lib の独自の HTMLParser には文書化されていない関数 unescape() があり、これはまさにあなたが考えていることを実行します。
Python 3.4 まで。
import HTMLParser
h = HTMLParser.HTMLParser()
h.unescape('© 2010') # u'\xa9 2010'
h.unescape('© 2010') # u'\xa9 2010'
Python 3.4+ です。
import html
html.unescape('© 2010') # u'\xa9 2010'
html.unescape('© 2010') # u'\xa9 2010'
関連
-
[解決済み] Pythonには文字列の'contains'サブストリングメソッドがありますか?
-
[解決済み] バイトを文字列に変換する
-
[解決済み] Pythonで文字列の部分文字列を取得するにはどうすればよいですか?
-
[解決済み] Pythonで文字列を小文字にするには?
-
[解決済み] 2つのリストを辞書に変換するにはどうしたらいいですか?
-
[解決済み] Pythonで文字列を反転させる
-
[解決済み] Python 3で文字列をバイトに変換する最良の方法?
-
[解決済み] CSSコンテンツによるHTMLエンティティの追加
-
[解決済み】文字列をdatetimeに変換する
-
[解決済み] Flaskで1時間ごとに関数を実行するようにスケジュールするには?
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
[解決済み】Pythonの文字列でHTMLエンティティをデコードしますか?
-
[解決済み】Pythonを使用してHTMLファイルからテキストを抽出する
-
[解決済み] SQLAlchemy: セッションの作成と再利用
-
[解決済み] pandasのDataFrameから空のセルを含む行を削除する
-
[解決済み] Django Rest Framework ファイルアップロード
-
[解決済み] python-requests モジュールからのすべてのリクエストをログに記録します。
-
[解決済み] 古いバージョンのPythonにおける辞書のキーの並び順
-
[解決済み] PyMongoで.sortを使用する
-
[解決済み] オブジェクトのリストに特定の属性値を持つオブジェクトが含まれているかどうかをチェックする
-
[解決済み] PyQtアプリケーションのスレッド化。QtスレッドとPythonスレッドのどちらを使うか?