ウェブクローラーの設計

2023-11-16 05:17:14

質問

もしあなたがウェブクローラーを設計しているとしたら、どのように無限ループに陥るのを避けますか」というインタビューの質問に遭遇しました。

最初からどのように始まるのでしょうか。 Google がいくつかのハブページ、たとえば何百ものハブページからスタートしたとします (これらのハブページがそもそもどのように発見されたかは別のサブクエスチョンです)。 Google がページからのリンクをたどっていくと、以前に訪問したページをたどらないように、ハッシュテーブルを作成し続けるのでしょうか。

同じページが2つの名前（URL）を持っている場合、例えばURL短縮ツールなどがある昨今ではどうでしょうか。

私はGoogleを例にとってみました。Googleはウェブクローラーのアルゴリズムやページランキングなどがどのように機能しているかは公表していませんが、何か想像がつきますか？

どのように解決するのですか？

詳細な答えを知りたい場合は 3.8節この論文をご覧ください。最新のスクレイパーの URL を見るテストが説明されています。

リンクを抽出する過程で、どんな Web クローラーは、同じドキュメントへの複数のリンクに遭遇することがあります。これを避けるためにドキュメントを何度もダウンロードし、処理することを避けるため何度もダウンロードし、処理することを避けるため、抽出されたリンクごとにURL 抽出された各リンクに対してを URL フロンティアに追加する前に実行する必要があります。 (別の設計としては URL がフロンティアから削除されたときに URL-seen テストを実行するを実行することです。が、このアプローチではより大きなフロンティアになります)。

を実行するために URL を見るテストを行うために、Mercator が見たすべての URLを正規化した形で形式で、URL セットと呼ばれる大きなテーブルに格納します。ここでも、エントリーが多すぎてが多すぎてメモリに収まらないので、ドキュメントフィンガープリントセットと同様にドキュメントフィンガープリントセットのように、URLセットセットはほとんどディスクに保存されます。

スペースを節約するためにスペースを節約するため、各 URL のテキスト表現をの各URLのテキスト表現を保存せず、固定サイズのURL セットにはテキスト表現を保存せず、固定サイズののチェックサムを格納します。フィンガープリントとは異なりに提示されるフィンガープリントとは異なり、ストリームフィンガープリントは、コンテンツシーンのドキュメントフィンガープリントセットに提示されるフィンガープリントとは異なり、URL セットに対してテストされる URL のストリームはに対してテストされる URL のストリームは、URL のセットに対しては非自明な量の局所性を持っています。そのための操作回数を減らすためにディスクの操作回数を減らすためにをインメモリキャッシュとして保持する。このキャッシュの直感的な理由は、以下のとおりです。あるURLへのリンクは非常に一般的である。をメモリ内にキャッシュしておくと、メモリ内をメモリ内にキャッシュすることで、高いメモリ内ヒット率率につながるからです。

実際、2^18 エントリのメモリ内キャッシュを使用すると 2^18エントリのメモリ内キャッシュとLRUライクなクロック置換ポリシーを使用して、私たちはインメモリキャッシュの全体的なヒット率は 66.2%、ヒット率は 9.5% です。 66.2%、そして最近追加されたURLのテーブルのヒット率は9.5%です。のヒット率を達成した。のヒット率を達成し、正味のヒット率は75.7%であった。さらにで失敗したリクエストのうち、24.3%がまた，人気 URL のキャッシュと最近追加された URL のテーブまた、人気URLのキャッシュと最近追加されたURLのテーブルの両方で失敗した24.3%のリクエストのうち、約 1=3がバッファにヒットしている。ランダムアクセスファイルの実装ではこのバッファはユーザースペースに存在する。このためこのバッファリングの正味の結果は URLセットに対して行う各メンバーシップテストはを実行すると、平均で 0.16のシークと0.17のリードカーネルの呼び出しが発生します（そのうちの一部はカーネルのファイルシステムバッファから提供されるバッファから提供されます)。つまり、各URLセットのメンバーシップテストが引き起こすカーネル呼び出しの数はを呼び出すことになります。ドキュメントフィンガープリントセットのメンバーシップテストの6分の1のカーネルコールが発生します。このこの節約は、純粋に URL の局所性（つまり、人気のある URL の繰り返し）に起因するものです。クロール中に遭遇する URL のストリームに内在する URL の局所性（つまり、人気のある URL の繰り返し）の量に起因します。の量によるものです。

基本的に、彼らはすべての URL をハッシュ関数でハッシュ化し、各 URL に対して一意のハッシュを保証しています。Google は、そのハッシュ関数をオープンソースにさえしています。 CityHash

警告!

ボットトラップについて話しているかもしれません!!! ボットトラップとは、ユニークなURLで新しいリンクを生成し続けるページのセクションのことで、そのページが提供するリンクをたどることで、本質的に無限ループに陥ることになります"。ループは同じURLにアクセスした結果なので、これは正確にはループではありませんが、クロールを避けるべきURLの無限連鎖なのです。

2012年12月13日更新 <ストライク - 世界が終わるとされた翌日 :)

Fr0zenFyr のコメント: もし人が AOPIC を使えば、無限ループのようなボットトラップを避けるのはかなり簡単です。以下は、AOPIC がどのように機能するかの要約です。

N 個の種ページのセットを取得します。
クロールが始まる前に、各ページが X/N クレジット (つまり同量のクレジット) を持つように、各ページに X 量のクレジットを割り当てる。
P が最も高いクレジット量を持つページ P を選択します (または、すべてのページが同じクレジット量である場合は、ランダムなページをクロールします)。
ページPをクロールします（クロールされたときのPのクレジットが100だったとします）。
ページPからすべてのリンクを抽出します（仮に10本あるとします）。
Pのクレジットを0に設定します。
10%の "tax" を取り、Lambda ページに割り当てます。
Pの元のクレジットからPのページで見つかった各リンクのクレジットを等量割り当てる - 税：したがって、（100（Pクレジット）-10（10％税））/10（リンク）=各リンクごとに9クレジットです。
ステップ3から繰り返します。

Lambdaページは継続的に税金を徴収しているので、最終的には最大のクレジット量を持つページとなり、それを"クロール"する必要があります。引用符でquot;crawl"と言っているのは、実際にLambdaページに対してHTTPリクエストを行うわけではなく、そのクレジットを取得して、それを均等に全てに均等に分配しています。

ボットトラップは内部リンクにしかクレジットを与えず、外部からのクレジットはほとんど得られないため、（課税による）クレジットをラムダページに継続的に漏えいさせることになります。Lambda ページはそのクレジットをデータベース内のすべてのページに均等に分配し、サイクルごとにボットトラップページはますますクレジットを失い、ほとんど二度とクロールされないほど少ないクレジットになります。優良なページは、他のページからのバックリンクでクレジットを獲得していることが多いので、このようなことは起こりません。これはまた、動的なページランクをもたらし、あなたが気づくことは、あなたのデータベースのスナップショットを取るときはいつでも、彼らが持っているクレジットの量によってページを並べることです。 真のページランク .

これは無限ループ的なボットトラップを避けるだけですが、そこには他にも多くのボットトラップがあります。があり、それを回避する方法もあります。

ウェブクローラーの設計

質問

どのように解決するのですか？

2012年12月13日更新 <ストライク - 世界が終わるとされた翌日 :)

関連

[解決済み] フュージョンツリーを理解する？

[解決済み】2分木と2分探索木の違いについて

[解決済み] lenses, fclabels, data-accessor - 構造体アクセスと突然変異のためのどのライブラリが良いか

[解決済み] メモリ上でhexile/hexグリッドを表現するにはどうしたらよいですか？

[解決済み] 二項探索木トラバーサル戦略（Preorder, Postorder, Inorder）をいつ使うか？

[解決済み] ヒープを使いたいのはどんなとき？

[解決済み] データ構造：挿入、削除、包含、ランダム要素の取得、すべてO(1)

[解決済み] KD-treeとR-treeの違いは何ですか？

[解決済み] RBツリー、Bツリー、AVLツリー、どれを選べばいい？

[解決済み] 完全二分木」、「厳密二分木」、「完全二分木」の違い？

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

[解決済み】最小スパニングツリー。カットプロパティとは何ですか？

[解決済み] 補助データ構造とは何ですか？