[解決済み] BeautifulSoup 可視化されたウェブページのテキストを取得する

2022-05-13 04:26:24

質問

基本的にBeautifulSoupで 可視テキスト を取得したい。例えばこのウェブページは私のテストケースです。そして、私は主に本文（記事）と、おそらくいくつかのタブ名を取得したいです。私はこの中の提案を試してみました SO質問の多くを返す <script> タグと私が望まないhtmlコメントがたくさん返されます。関数に必要な引数がわかりません。 findAll() に必要な引数がわかりません。

では、スクリプト、コメント、CSSなどを除いたすべての可視テキストを見つけるにはどうすればよいのでしょうか？

どのように解決するのですか？

これを試してみてください。

from bs4 import BeautifulSoup
from bs4.element import Comment
import urllib.request


def tag_visible(element):
    if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']:
        return False
    if isinstance(element, Comment):
        return False
    return True


def text_from_html(body):
    soup = BeautifulSoup(body, 'html.parser')
    texts = soup.findAll(text=True)
    visible_texts = filter(tag_visible, texts)  
    return u" ".join(t.strip() for t in visible_texts)

html = urllib.request.urlopen('http://www.nytimes.com/2009/12/21/us/21storm.html').read()
print(text_from_html(html))

[解決済み] BeautifulSoup 可視化されたウェブページのテキストを取得する

質問

どのように解決するのですか？

関連

Python 可視化 big_screen ライブラリサンプル詳細

PyQt5はユーザーログインGUIインターフェースとログイン後のジャンプを実装しています。

Python Pillow Image.save jpg画像圧縮問題

[解決済み】LogisticRegression: Pythonでsklearnを使用して、未知のラベルタイプ： '連続'を使用しています。

[解決済み】Python: SyntaxError: キーワードは式になり得ない

[解決済み】Python - "ValueError: not enough values to unpack (expected 2, got 1)" の修正方法 [閉店].

[解決済み] Linuxで特定のテキストを含むすべてのファイルを検索するにはどうすればよいですか？

[解決済み] MySQLです。大きなVARCHARとTEXTの比較？

[解決済み】文字列をテキストファイルに出力する

[解決済み】Pythonを使用してHTMLファイルからテキストを抽出する

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

opencvとpillowを用いた顔認証システム（デモあり）

PyQt5はユーザーログインGUIインターフェースとログイン後のジャンプを実装しています。

風力制御におけるKS原理を深く理解するためのpythonアルゴリズム

PythonによるExcelファイルの一括操作の説明

Pythonの画像ファイル処理用ライブラリ「Pillow」（グラフィックの詳細）

[解決済み】なぜ「LinAlgError: Grangercausalitytestsから「Singular matrix」と表示されるのはなぜですか？

[解決済み】Pythonでgoogle APIのJSONコードを読み込むとエラーになる件

[解決済み】Python Error: "ValueError: need more than 1 value to unpack" （バリューエラー：解凍に1つ以上の値が必要です

[解決済み】NameError: 名前 'self' が定義されていません。

[解決済み】cアンダースコア式`c_`は、具体的に何をするのですか？