[解決済み】Pythonの文字列でHTMLエンティティをデコードしますか?
2022-03-26 11:51:47
質問
Beautiful Soup 3でHTMLを解析しているのですが、Beautiful Soup 3が自動的にデコードしてくれないHTMLエンティティが含まれているのですが、どうしたらいいですか?
>>> from BeautifulSoup import BeautifulSoup
>>> soup = BeautifulSoup("<p>£682m</p>")
>>> text = soup.find("p").string
>>> print text
£682m
のHTMLエンティティはどのようにデコードすればよいのでしょうか?
text
を取得するために
"£682m"
の代わりに
"£682m"
.
解決方法は?
Python 3.4+
使用方法
html.unescape()
:
import html
print(html.unescape('£682m'))
ご参考まで
html.parser.HTMLParser.unescape
は非推奨であり
は3.5で削除される予定でした。
間違って入ってしまったのですが。近々、言語から削除される予定です。
Python 2.6-3.3
を使用することができます。
HTMLParser.unescape()
を標準ライブラリからダウンロードします。
-
Python 2.6-2.7では
HTMLParser
-
Python 3 の場合は、以下の場所にあります。
html.parser
>>> try:
... # Python 2.6-2.7
... from HTMLParser import HTMLParser
... except ImportError:
... # Python 3
... from html.parser import HTMLParser
...
>>> h = HTMLParser()
>>> print(h.unescape('£682m'))
£682m
を使用することもできます。
six
互換ライブラリでインポートを簡略化することができます。
>>> from six.moves.html_parser import HTMLParser
>>> h = HTMLParser()
>>> print(h.unescape('£682m'))
£682m
関連
-
Python Pillow Image.save jpg画像圧縮問題
-
[解決済み】syntaxError: 'continue' がループ内で適切に使用されていない
-
[解決済み] Pythonには文字列の'contains'サブストリングメソッドがありますか?
-
[解決済み] バイトを文字列に変換する
-
[解決済み] インスタンスのクラス名を取得する?
-
[解決済み] inline/inline-block要素間のスペースを削除するにはどうすればよいですか?
-
[解決済み] CSSコンテンツによるHTMLエンティティの追加
-
[解決済み】なぜHTMLは "chucknorris "を色と見なすのか?
-
[解決済み】ネストされたディレクトリを安全に作成するには?
-
[解決済み】Pythonに三項条件演算子はありますか?
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
Pythonの非常に便利な2つのデコレーターを解説
-
Python 可視化 big_screen ライブラリ サンプル 詳細
-
風力制御におけるKS原理を深く理解するためのpythonアルゴリズム
-
PythonでECDSAを実装する方法 知っていますか?
-
[解決済み】ilocが「IndexError: single positional indexer is out-of-bounds」を出す。
-
[解決済み】 NameError: グローバル名 'xrange' は Python 3 で定義されていません。
-
[解決済み】「SyntaxError.Syntax」は何ですか?Missing parentheses in call to 'print'」はPythonでどういう意味ですか?
-
[解決済み] 'DataFrame' オブジェクトに 'sort' 属性がない
-
[解決済み】Python Error: "ValueError: need more than 1 value to unpack" (バリューエラー:解凍に1つ以上の値が必要です
-
[解決済み] Python 3.1 で文字列中の HTML エンティティをアンエスケープするにはどうしたらいいですか?[重複しています]。