[解決済み】Pythonを使用してHTMLファイルからテキストを抽出する
2022-04-02 13:13:46
質問
Pythonを使ってHTMLファイルからテキストを抽出したいのですが、どうすればいいですか? ブラウザからテキストをコピーして、メモ帳に貼り付けた場合と本質的に同じ出力が欲しいのです。
正規表現を使うより、もっとしっかりしたものが欲しい。 多くの人がBeautiful Soupを勧めているのを見ましたが、私はそれを使っていくつかの問題を経験しました。 一つは、JavaScriptのソースのような不要なテキストを拾ってしまうことです。 また、HTMLの実体を解釈しないこともあった。 例えば、HTMLソースの'は、テキストではアポストロフィに変換されると思うのですが、まるでブラウザの内容をメモ帳に貼り付けたかのように変換されました。
更新情報
html2text
は期待できそうです。HTMLエンティティを正しく処理し、JavaScriptを無視することができます。 しかし、それは正確にプレーンテキストを生成するのではなく、マークダウンを生成し、それをプレーンテキストに変換する必要がある。例やドキュメントはありませんが、コードはきれいに見えます。
関連する質問
どのように解決するのですか?
html2text は、この分野でかなり良い仕事をするPythonのプログラムです。
関連
-
[解決済み】ImportError: sklearn.cross_validation という名前のモジュールがない。
-
[解決済み] ファイルのコピー方法について教えてください。
-
[解決済み] Pythonでファイルやフォルダを削除する方法は?
-
[解決済み] Pythonの辞書からキーを削除するにはどうしたらいいですか?
-
[解決済み] CSSでテキストや画像の背景を透明にするには?
-
[解決済み] なぜC++はPythonよりもstdinからの行の読み込みが遅いのですか?
-
[解決済み] HTMLページからのリダイレクト
-
[解決済み] Pythonでファイル名から拡張子を抽出する
-
[解決済み] Sublime Text 2を使ってHTMLコードを再フォーマットするにはどうしたらいいですか?
-
[解決済み】文字列をテキストファイルに出力する
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
Pythonコンテナのための組み込み汎用関数操作
-
Python機械学習Githubが8.9Kstarsに達したモデルインタープリタLIME
-
pyCaret効率化乗算器 オープンソース ローコード Python機械学習ツール
-
Pythonの@decoratorsについてまとめてみました。
-
[解決済み】RuntimeWarning: invalid value encountered in double_scalars で numpy の除算ができない。
-
[解決済み】numpy: true_divide で無効な値に遭遇
-
[解決済み】ImportError: PILという名前のモジュールがない
-
[解決済み】 AttributeError("'str' object has no attribute 'read'")
-
[解決済み] TypeError: 'DataFrame' オブジェクトは呼び出し可能ではない
-
[解決済み】django インポートエラー - core.managementという名前のモジュールがない