[解決済み】Pythonで文字列からHTMLを取り除く

2022-03-26 17:52:43

質問

from mechanize import Browser
br = Browser()
br.open('http://somewebpage')
html = br.response().readlines()
for line in html:
  print line

HTMLファイルの行を印刷するとき、フォーマットそのものではなく、各HTML要素の内容のみを表示する方法を探しています。もしそれが '<a href="whatever.com">some text</a>' の場合、'some text' とだけ表示されます。 '<b>hello</b>' は'hello'を表示する、など。どうすればいいのでしょうか？

どのように解決するのですか？

Python stdlibだけで使えるので、HTMLタグのストリップにはいつもこの関数を使っています。

Python 3 の場合。

from io import StringIO
from html.parser import HTMLParser

class MLStripper(HTMLParser):
    def __init__(self):
        super().__init__()
        self.reset()
        self.strict = False
        self.convert_charrefs= True
        self.text = StringIO()
    def handle_data(self, d):
        self.text.write(d)
    def get_data(self):
        return self.text.getvalue()

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

Python2用です。

from HTMLParser import HTMLParser
from StringIO import StringIO

class MLStripper(HTMLParser):
    def __init__(self):
        self.reset()
        self.text = StringIO()
    def handle_data(self, d):
        self.text.write(d)
    def get_data(self):
        return self.text.getvalue()

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

[解決済み】Pythonで文字列からHTMLを取り除く

質問

どのように解決するのですか？

関連

Python jiabaライブラリの使用方法について説明

[解決済み] Pythonには文字列の'contains'サブストリングメソッドがありますか？

[解決済み] Pythonで現在時刻を取得する方法

[解決済み] Pythonで2つのリストを連結する方法は？

[解決済み] Pythonで例外を手動で発生（スロー）させる

[解決済み] Pythonの辞書からキーを削除するにはどうしたらいいですか？

[解決済み] HTML 5: Is it <br>, <br/>, or <br />?

[解決済み】なぜHTMLは "chucknorris "を色と見なすのか？

[解決済み】ネストされたディレクトリを安全に作成するには？

[解決済み】Pythonに三項条件演算子はありますか？

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

ピローによる動的キャプチャ認識のためのPythonサンプルコード

pythonサイクルタスクスケジューリングツールスケジュール詳解

Python 入出力と高次代入の基礎知識

[解決済み】DataFrameのコンストラクタが正しく呼び出されない！エラー

[解決済み】「RuntimeError: dictionary changed size during iteration」エラーを回避する方法とは？

[解決済み】numpy: true_divide で無効な値に遭遇

[解決済み】socket.error: [Errno 48] アドレスはすでに使用中です。

[解決済み】TypeErrorを取得しました。エントリを持つ子テーブルの後に親テーブルを追加しようとすると、 init() missing 1 required positional argument: 'on_delete'

[解決済み] 'DataFrame' オブジェクトに 'sort' 属性がない

[解決済み】Flaskのテンプレートが見つからない【重複あり