JavaによるWebスクレイピング
2023-10-19 18:43:01
質問
JavaベースのWebスクレイピングAPIをうまく見つけることができません。私がスクレイピングする必要があるサイトは、同様にAPIを提供していません。私はいくつかの
pageID
を使用してすべてのWebページを繰り返し、そのDOMツリー内のHTMLタイトル/他のものを抽出したいのです。
ウェブスクレイピング以外の方法はあるのでしょうか?
どのように解決するのですか?
jsoup
タイトルの抽出は難しくなく、多くのオプションがあります。 Java HTML パーサー と検索してください。そのうちの1つは Jsoup .
ページ構造を知っていれば、DOMを使ってページを移動することができます。 http://jsoup.org/cookbook/extracting-data/dom-navigation
良いライブラリで、私の最後のプロジェクトで使用しました。
関連
-
mvn' は、内部または外部のコマンド、操作可能なプログラムまたはバッチファイルとして認識されません。
-
ApplicationContextの起動エラーです。条件レポートを表示するには、アプリケーションを'de'で再実行します。
-
BindException: アドレスはすでに使用中です:バインドエラー解決
-
[解決済み] JavaでInputStreamを読み込んでStringに変換するにはどうすればよいですか?
-
[解決済み] JavaでNullPointerExceptionを回避する方法
-
[解決済み] JavaにおけるHashMapとHashtableの違いは何ですか?
-
[解決済み] Java Mapの各エントリを効率的に反復処理するには?
-
[解決済み] Javaでメモリーリークを発生させるにはどうしたらいいですか?
-
[解決済み] JavaでArrayListではなくLinkedListを使用するのはいつですか?
-
[解決済み] Javaでリストを反復処理する方法
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
Eclipse の問題 アクセス制限。タイプ 'jfxrt' はAPI解決されていません。
-
java.sql.SQLException: executeQuery()でデータ操作文を発行できません。
-
Collections.sortがdoubleでソートできない問題を完璧に解決する。
-
名前 'XXX' を持つ Bean の作成に失敗しました。自動依存関係の注入に失敗しました 解決方法
-
無効な文字定数
-
java.sql.SQLException: 結果セットの開始前
-
アノテーション「@Retention」の役割
-
eclipse にリソースリーク:'in' が閉じない
-
Server Tomcat v9.0 Server at localhost の起動に失敗しました。
-
代入の左辺は変数でなければならない 解答