Jsoup-Crawlingの動作

2022-02-15 06:51:16

記事目次

Jsoup
依存関係をインポートする
情報を取得する
データのフィルタリング

Jsoup

Jsoup は、URLアドレス、HTMLテキストコンテンツを直接パースすることができるJavaのHTMLパーサーです。DOM、CSS、jQueryのような操作方法を介してデータを抽出し、操作するための非常に少ない労力のAPIを提供します。
クローラーは、検索エンジン、コンテンツ検索、データ収集・分析などに利用できます。とてもパワフルでハチャメチャですが、好き勝手なことはしないでくださいね( ~~刑務所のようなプログラミング~~ )、賢く使ってください。

Jsoupオフィシャルサイト
 中国語ドキュメンテーション

依存関係をインポートする

mavenをご存じない方は、私の他のブログをご参照ください。

org.jsoup
          
jsoup
          
1.10.2

package com.wzl.utils;

import org.jsoup;

import org.jsoup.nodes;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.net.MalformedURLException;
import java.net.URL;

public class HtmlParseUtil {
    public static void main(String[] args) throws IOException {
        //get request (need to network)
        String url="https://so.csdn.net/so/search/s.do?q=jsoup&t=&u=";
        //parse the page (Jsoup returns the browser Document object, you can use Js's methods)
        Document document=Jsoup.parse(new URL(url),60000);//set 60s timeout
        Elements elements=document.getElementsByClass("search-list J_search");
        for (Element el:elements) {
            System.out.println(el.html());
            System.out.println("=================");
        }
    }
}

Jsoup-Crawlingの動作

記事目次

Jsoup

依存関係をインポートする

関連

mvn' は、内部または外部のコマンド、操作可能なプログラムまたはバッチファイルとして認識されません。

java.sql.SQLException: executeQuery()でデータ操作文を発行できません。

ajax コミットリソースの読み込みに失敗しました: サーバーはステータス 400 で応答しました ()

強制型変換について

unsigned char* から const jbyte* {aka const signed char*} への変換が無効です。

java send https request prompt java.security.cert.について。

X11 DISPLAY変数が設定されていない」問題の解決方法

ApiModel と @ApiModelProperty の使用法

Java上級（XLVI） ArrayList、Vector、LinkedListの類似点と相違点を簡単に説明できる。

MySQLIntegrityConstraintViolationException、解決方法

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

スレッド "main "での例外 java.util.NoSuchElementException in Java 問題解決済み

Java の switch case 文で必要な定数式の問題の解決法

java -jarコマンドでパッケージを実行すると、無効または破損したjarfile xxxx.jarが表示される。

Junitのユニットテストはjava.lang.Testを報告します。

CertificateException: XXXに一致するサブジェクトの代替DNS名が見つかりません解決策

eclipse にリソースリーク：'in' が閉じない

ecplise プロンプトが表示されます。"選択したものは起動できません。" "最近の起動はありません。"

org.xml.sax.SAXParseExceptionのエラー解決方法

Java JDKのダイナミックプロキシ（AOP）の使用と実装の原理分析

コレクション - PriorityQueueソースコード解析