[解決済み】Pythonの文字列でHTMLエンティティをデコードしますか？

2022-03-26 11:51:47

質問

Beautiful Soup 3でHTMLを解析しているのですが、Beautiful Soup 3が自動的にデコードしてくれないHTMLエンティティが含まれているのですが、どうしたらいいですか？

>>> from BeautifulSoup import BeautifulSoup

>>> soup = BeautifulSoup("<p>&pound;682m</p>")
>>> text = soup.find("p").string

>>> print text
&pound;682m

のHTMLエンティティはどのようにデコードすればよいのでしょうか？ text を取得するために "£682m" の代わりに "£682m" .

解決方法は？

Python 3.4+

使用方法 html.unescape() :

import html
print(html.unescape('&pound;682m'))

ご参考まで html.parser.HTMLParser.unescape は非推奨でありは3.5で削除される予定でした。間違って入ってしまったのですが。近々、言語から削除される予定です。

Python 2.6-3.3

を使用することができます。 HTMLParser.unescape() を標準ライブラリからダウンロードします。

Python 2.6-2.7では HTMLParser
Python 3 の場合は、以下の場所にあります。 html.parser

>>> try:
...     # Python 2.6-2.7 
...     from HTMLParser import HTMLParser
... except ImportError:
...     # Python 3
...     from html.parser import HTMLParser
... 
>>> h = HTMLParser()
>>> print(h.unescape('&pound;682m'))
£682m

を使用することもできます。 six 互換ライブラリでインポートを簡略化することができます。

>>> from six.moves.html_parser import HTMLParser
>>> h = HTMLParser()
>>> print(h.unescape('&pound;682m'))
£682m

[解決済み】Pythonの文字列でHTMLエンティティをデコードしますか？

質問

解決方法は？

Python 3.4+

Python 2.6-3.3

関連

Python Pillow Image.save jpg画像圧縮問題

[解決済み】syntaxError: 'continue' がループ内で適切に使用されていない

[解決済み] Pythonには文字列の'contains'サブストリングメソッドがありますか？

[解決済み] バイトを文字列に変換する

[解決済み] インスタンスのクラス名を取得する？

[解決済み] inline/inline-block要素間のスペースを削除するにはどうすればよいですか？

[解決済み] CSSコンテンツによるHTMLエンティティの追加

[解決済み】なぜHTMLは "chucknorris "を色と見なすのか？

[解決済み】ネストされたディレクトリを安全に作成するには？

[解決済み】Pythonに三項条件演算子はありますか？

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

Pythonの非常に便利な2つのデコレーターを解説

Python 可視化 big_screen ライブラリサンプル詳細

風力制御におけるKS原理を深く理解するためのpythonアルゴリズム

PythonでECDSAを実装する方法知っていますか？

[解決済み】ilocが「IndexError: single positional indexer is out-of-bounds」を出す。

[解決済み】 NameError: グローバル名 'xrange' は Python 3 で定義されていません。

[解決済み】「SyntaxError.Syntax」は何ですか？Missing parentheses in call to 'print'」はPythonでどういう意味ですか？

[解決済み] 'DataFrame' オブジェクトに 'sort' 属性がない

[解決済み】Python Error: "ValueError: need more than 1 value to unpack" （バリューエラー：解凍に1つ以上の値が必要です

[解決済み] Python 3.1 で文字列中の HTML エンティティをアンエスケープするにはどうしたらいいですか？[重複しています]。