[解決済み】Node.jsでのHTMLパーサー【終了しました
質問
Rubyの ノコギリ をnodejs上で使用することはできますか? つまり、ユーザーフレンドリーなHTMLパーサーです。
Node.jsのモジュールページでいくつかのパーサーを見たことがありますが、私はきれいで新鮮なものを見つけることができません。
解決方法は?
を構築したい場合 DOM を使用することができます。 jsdom .
また チェリオ を持っています。 jQuery のインターフェイスを持ち、古いバージョンの jsdom よりもずっと高速です(最近では性能は同等ですが)。
をご覧になってみてください。 htmlparser2 これはストリーミングパーサーで、ベンチマークによると、他のものよりも高速で、デフォルトではDOMがないようです。DOM を作成するハンドラもバンドルされているので、DOM を作成することもできます。これはcheerioが使っているパーサーです。
パース5 も良いソリューションのように見えます。かなりアクティブで (この更新の時点で最後のコミットから 11 日)、WHATWG に準拠しており、次のように使用されています。 jsdom , アンギュラー そして ポリマー .
また、HTMLをパースする場合は ウェブスクレイピング を使用することができます。 YQL 1 . があります。 ノードモジュール を使用します。YQLが最適な解決策になると思います。 静的 自分のコードや処理能力ではなく、サービスに依存しているからです。ただし、ウェブサイトのrobot.txtでページが許可されていない場合は、YQLは動作しないので注意してください。
もし、スクレイピングしようとしているウェブサイトが ダイナミック であれば ヘッドレスブラウザ のように ファントムジム . また、次のようなものもあります。 キャスパー phantomjsを検討しているのであれば。また、ノードからcasperjsを制御するには、次のようにします。 スプーキーJS .
phantomjsの他に、以下のようなものがあります。 zombiejs . nodejsに埋め込むことができないphantomjsとは異なり、zombiejsは単なるnodeモジュールです。
そこには nettuts+ toturial 後者の解決策については
1 2014年8月以降、YQLの要件であるYUIライブラリは積極的なメンテナンスが行われなくなりました。 ソース
関連
-
[解決済み] Node.jsのプログラムにコマンドライン引数を渡すにはどうしたらいいですか?
-
[解決済み] リンクのように動作するHTMLボタンを作成する方法
-
[解決済み] HTML 5: Is it <br>, <br/>, or <br />?
-
[解決済み] Node.jsを使うタイミングをどう判断するか?
-
[解決済み] Node.jsで終了する方法
-
[解決済み] Node.jsでファイルを書き込む
-
[解決済み] スクロールバーを隠すが、スクロールはできる状態
-
[解決済み] ページロード後にJavaScriptを実行させるには?
-
[解決済み】なぜHTMLは "chucknorris "を色と見なすのか?
-
[解決済み】<input type="file">でファイル形式を制限する?
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
[解決済み】iframeの背景色を変更する問題
-
[解決済み】iframeの高さを100%にする方法【重複】。
-
js プログラミング共通のエラーです。Uncaught TypeError。XXXは関数ソリューションではありません
-
[解決済み] HTMLの#記号の文字実体は?
-
[解決済み] 絶対位置が機能しない
-
[解決済み] Node.jsのドキュメントが定義されていない
-
[解決済み] ChromeのデベロッパーツールでHTML Bodyにcz-shortcut-listen="true "が表示される?
-
[解決済み] HTML CSS インビジブルボタン
-
[解決済み] アトムでキーバインドリゾルバーのポップアップを消すにはどうしたらいいですか?
-
[解決済み] mailchimpのメールインラインスタイルのコーディングがいつも通りできない