1. ホーム
  2. Java

Jsoup-Crawlingの動作

2022-02-15 06:51:16
<パス

記事目次

Jsoup


Jsoup は、URLアドレス、HTMLテキストコンテンツを直接パースすることができるJavaのHTMLパーサーです。DOM、CSS、jQueryのような操作方法を介してデータを抽出し、操作するための非常に少ない労力のAPIを提供します。
クローラーは、検索エンジン、コンテンツ検索、データ収集・分析などに利用できます。とてもパワフルでハチャメチャですが、好き勝手なことはしないでくださいね( 刑務所のようなプログラミング )、賢く使ってください。

Jsoupオフィシャルサイト
中国語ドキュメンテーション

依存関係をインポートする


mavenをご存じない方は、私の他のブログをご参照ください。

org.jsoup
          
jsoup
          
1.10.2
      

package com.wzl.utils; import org.jsoup; import org.jsoup.nodes; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.IOException; import java.net.MalformedURLException; import java.net.URL; public class HtmlParseUtil { public static void main(String[] args) throws IOException { //get request (need to network) String url="https://so.csdn.net/so/search/s.do?q=jsoup&t=&u="; //parse the page (Jsoup returns the browser Document object, you can use Js's methods) Document document=Jsoup.parse(new URL(url),60000);//set 60s timeout Elements elements=document.getElementsByClass("search-list J_search"); for (Element el:elements) { System.out.println(el.html()); System.out.println("================="); } } }