1. ホーム
  2. algorithm

[解決済み] アマゾンのレコメンデーション機能の仕組み

2022-05-11 16:24:15

質問

アマゾンのレコメンデーション技術の画面の裏側には、どのような技術があるのでしょうか?アマゾンのレコメンデーションは現在最も優れていると思いますが、どのようにして私たちに適切なレコメンデーションを提供しているのでしょうか?

最近、私たちも同じようなレコメンデーションのプロジェクトに関わっていますが、技術的な観点からアマゾンのレコメンデーション技術の裏側を知りたいと思います。

どのような情報でも構いませんので、ぜひ教えてください。

更新しました。

これは 特許 は、パーソナライズされたレコメンデーションがどのように行われるかを説明していますが、あまり技術的ではありません。

Daveのコメントより。 アフィニティ分析 は、このようなレコメンデーションエンジンの基礎を形成しています。また、このトピックに関するいくつかの良い読み物もあります。

  1. マーケット・バスケット分析の謎解き
  2. マーケット・バスケット分析
  3. アフィニティ分析

お勧めの読み物です。

  1. データマイニング。概念と手法

どのように解決するのですか?

それは芸術であり、科学でもあります。 典型的な研究分野は、データマイニングの分野のサブセットであるマーケット バスケット分析 (親和性分析とも呼ばれます) を中心に展開されています。 このようなシステムの典型的なコンポーネントには、主要なドライバー項目の識別と、親和性のある項目 (アクセサリーのアップセル、クロスセル) の識別が含まれます。

彼らがマイニングするデータソースを覚えておいてください...

  1. 購入されたショッピング カート = 実際の商品に対して使われた実際の人々のお金 = 強力なデータであり、その量は膨大です。
  2. カートに追加されたが放棄されたアイテム。
  3. 同じ商品を異なる価格で提供し、その結果を見るというオンライン上の価格設定実験(A/Bテストなど)。
  4. パッケージング実験 (A/B テストなど)。異なる製品を異なるバンドルで提供したり、さまざまなアイテムの組み合わせを割り引いたりする。
  5. ウィッシュリスト - あなたにとって特別なもので、集計すると、バスケット分析データの別のストリームと同様に扱うことができるものです。
  6. リファーラル サイト (どこから入ってきたかを識別することで、興味のある他のアイテムのヒントになります)
  7. 滞留時間 (クリックバックして別のアイテムを選択するまでの時間)
  8. あなたや、あなたのソーシャル ネットワーク/購買サークルの人々による評価 - あなたが好きなものを評価すれば、あなたが好きなものをより多く得ることができ、また、" I already owned it" ボタンで確認すれば、あなたの非常に完全なプロファイルが作成されます。
  9. 人口統計学的情報 (配送先住所など) - あなたの子供、あなた自身、あなたの配偶者など、あなたの一般的な領域で何が流行っているのかがわかります。
  10. ユーザー セグメンテーション = 幼児のために別々の月に 3 冊の本を購入したか? おそらく子供かそれ以上の子供がいる...など。
  11. ダイレクト マーケティングのクリックスルー データ - その企業から電子メールを受け取り、クリックスルーしたのか? どのメールであったか、何をクリックしたか、その結果買ったかどうかがわかる。
  12. セッションでのクリック パス - カートに入れたかどうかに関係なく、何を表示したのか。
  13. 最終購入前に商品を閲覧した回数
  14. 実店舗を扱っている場合、物理的な購入履歴がある可能性があります (例: toys r us など、オンラインと実店舗を兼ねたもの)。
  15. などなど。

幸いなことに、人々は全体として同じような行動をするので、購買集団について知れば知るほど、何が売れて何が売れないのかがよくわかり、すべての取引、すべての評価/ウィッシュリストの追加/閲覧によって、より個人的にカスタマイズした推奨をする方法がわかります。 これは、推薦文などに含まれるすべての影響のほんの一例に過ぎないことを心に留めておいてください。

私は以前、Microsoft の Commerce Server という製品のデータマイニングと分析を担当する PM として働いていました。 しかし、販売量が多ければ多いほど、より良いデータがあればあるほど、より良いモデルを作ることができます。 コマースサイトの中で、これだけのデータを使ってモデルを作るのは、とても楽しいことだと想像できます。 現在、これらのアルゴリズムの多くは(コマース・サーバーから始まったプレディクターなど)、直接Amazonで動作するよう移行しています。 マイクロソフト SQL .

持っておくべき大きなテイクアウェイは4つです。

  1. Amazon (または他の小売業者) は、大量のトランザクションと大量の人々の集合データを見ています...これにより、サイト上の匿名ユーザーに対してかなりうまく推薦することができます。
  2. Amazon (または洗練された小売業者) は、ログインしている人の行動と購入を追跡し、それを使って大量の集計データの上にさらに洗練されたものを載せています。
  3. 多くの場合、蓄積されたデータをオーバーライドして、特定の品目のプロダクト マネージャー (たとえば、「デジタル カメラ」部門や「ロマンス小説」部門などを所有する人) が本当にエキスパートであるような提案の編集権を握る手段が存在します。
  4. プロモーション取引 (たとえば、sony や panasonic、nikon、canon、sprint、verizon が小売業者に追加のお金を支払う、または大量に購入するとより良い割引を提供するなど) によって、特定の "suggestions" が他のものより頻繁に上位に来ることがよくありますが、この背景には常に、各取引でより多くを稼ぐ、または卸売コストを削減するなど、妥当なビジネス論理とビジネス理由が存在します。

実際の実装は? 大規模なオンライン システムのほとんどは、パイプライン (またはフィルター パターンの実装、ワークフローなど、好きなように呼んでください) のセットに集約され、何らかの形式のビジネス ロジックを適用する一連のモジュールによって、コンテキストが評価されるようになっています。

たとえば、おすすめのパッケージやアップセル (今見ている商品と一緒に購入する) や代替品 (今見ている商品の代わりにこれを購入する)、ウィッシュリスト (製品カテゴリなどによる) から最も関連の高い商品を取得するパイプラインがあります。

これらのパイプラインの結果は、ページのさまざまな部分 (スクロール バーの上、スクロールの下、左、右、異なるフォント、異なるサイズの画像など) に配置することができ、どのパフォーマンスが最も優れているかをテストすることができます。 これらのパイプラインのビジネス ロジックを定義するプラグ アンド プレイの簡単なモジュールを使用しているので、結局はレゴ ブロックに相当するモラルがあり、別のパイプラインを構築するときに適用したいビジネス ロジックを簡単に選択でき、より速いイノベーション、より多くの実験、そして最終的には高い利益を得ることができるのです。

いかがでしたか? Amazon だけでなく、あらゆる e コマース サイトで一般的にどのように機能するのか、少しは理解していただけたでしょうか。 Amazon は (そこで働いたことのある友人と話したところでは)、非常にデータ駆動型で、ユーザー エクスペリエンス、価格設定、プロモーション、パッケージングなどの効果を継続的に測定しているそうです。- 彼らは非常に洗練されたオンライン小売業者であり、利益を最適化するために使用する多くのアルゴリズムの最先端にいると思われます。