1. ホーム
  2. java

JavaによるWebスクレイピング

2023-10-19 18:43:01

質問

JavaベースのWebスクレイピングAPIをうまく見つけることができません。私がスクレイピングする必要があるサイトは、同様にAPIを提供していません。私はいくつかの pageID を使用してすべてのWebページを繰り返し、そのDOMツリー内のHTMLタイトル/他のものを抽出したいのです。

ウェブスクレイピング以外の方法はあるのでしょうか?

どのように解決するのですか?

jsoup

タイトルの抽出は難しくなく、多くのオプションがあります。 Java HTML パーサー と検索してください。そのうちの1つは Jsoup .

ページ構造を知っていれば、DOMを使ってページを移動することができます。 http://jsoup.org/cookbook/extracting-data/dom-navigation

良いライブラリで、私の最後のプロジェクトで使用しました。