[解決済み] BeautifulSoupとlxml.html - どちらを選ぶか?重複
2022-01-31 10:41:14
質問
私は、HTMLを解析するプロジェクトに取り組んでいます。
いろいろと探した結果、2つの有力な選択肢が見つかりました。BeautifulSoupとlxml.htmlです。
どちらか一方を選ぶ理由はあるのでしょうか?私は以前XMLのためにlxmlを使用したことがあり、私はそれをより快適に感じるだろうが、しかしBeautifulSoupははるかに一般的であるように思われる。
自分に合う方を使えばいいのはわかっているのですが、個人的に両方の体験談を探していました。
解決方法は?
単純な答えとしては、もしソースが整形式であることを信頼するならば、lxml ソリューションを使用することです。 そうでない場合は、BeautifulSoupを使用します。
編集する
この回答はもう3年前のものですが、Jonathan Vanascoがコメントで述べているように、注目に値します。
BeautifulSoup4
がサポートされるようになりました。
lxml
を内部パーサーとして使用することで、パフォーマンスへの影響をほとんど受けることなく BeautifulSoup の高度な機能とインターフェイスを使用することができます。
lxml
私自身は、習慣的にそうしています(笑)。
関連
-
Pythonによるjieba分割ライブラリ
-
[解決済み】ValueError: xとyは同じサイズでなければならない
-
[解決済み] 関数デコレータを作成し、それらを連鎖させるには?
-
[解決済み] staticmethodとclassmethodの違いについて
-
[解決済み] Pythonのリストメソッドであるappendとextendの違いは何ですか?
-
[解決済み] __init__.py は何のためにあるのですか?
-
[解決済み] 最小限の驚き」と「変更可能なデフォルトの引数
-
[解決済み] パラメータに**(ダブルスター/アスタリスク)、*(スター/アスタリスク)がありますが、これはどういう意味ですか?
-
[解決済み】if __name__ == "__main__": は何をするのでしょうか?
-
[解決済み】__str__と__repr__の違いは何ですか?
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
Python機械学習Githubが8.9Kstarsに達したモデルインタープリタLIME
-
PythonはWordの読み書きの変更操作を実装している
-
Pythonを使って簡単なzipファイルの解凍パスワードを手作業で解く
-
FacebookオープンソースワンストップサービスpythonのタイミングツールKats詳細
-
[解決済み】RuntimeWarning: invalid value encountered in double_scalars で numpy の除算ができない。
-
[解決済み】socket.error: [Errno 48] アドレスはすでに使用中です。
-
[解決済み】 AttributeError: モジュール 'matplotlib' には属性 'plot' がない。
-
[解決済み】インポートエラー。モジュール名 urllib2 がない
-
[解決済み] 'int'オブジェクトに'__getitem__'属性がない。
-
[解決済み] XHTMLの自己完結型タグを除くオープンタグにマッチするRegEx