1. ホーム
  2. text

[解決済み】コサインの類似性の例を、とても簡単な図式で誰か教えてください。[クローズド]

2022-04-09 09:31:59

質問

ウィキペディアのコサイン類似度に関する記事

ここでベクトルを(リストか何かで)表示することができますか? を計算し、その結果を私たちに見せてください。

どのように解決するのですか?

ここでは、2つの非常に短いテキストを比較します。

  1. Julie loves me more than Linda loves me

  2. Jane likes me more than Julie loves me

これらのテキストがどの程度似ているのかを、純粋に語数の観点から(語順を無視して)知りたい。まず、両文章の単語のリストを作成します。

me Julie loves Linda than more likes Jane

次に、それぞれの単語がそれぞれの文章に登場する回数を数えてみる。

   me   2   2
 Jane   0   1
Julie   1   1
Linda   1   0
likes   0   1
loves   2   1
 more   1   1
 than   1   1

しかし、私たちは言葉そのものに興味があるわけではありません。私たちが関心を持つのは その2つの縦方向のカウントのベクトル。例えば、2つのインスタンス 'me'がそれぞれのテキストに含まれています。この2つのテキストがどの程度近いかを判断するために この2つのベクトルから1つの関数、すなわち余弦を計算することによって 両者の間の角度

2つのベクトルは、繰り返しになりますが

a: [2, 0, 1, 1, 0, 2, 1, 1]

b: [2, 1, 1, 0, 1, 1, 1, 1]

両者のなす角の余弦は約0.822である。

これらのベクトルは8次元です。コサインの類似性を利用することの利点は、明らかに 人間の能力では可視化できない問題を、可視化できる問題に変換できることです。 ということです。この場合、角度は約35度と考えることができます。 度であり、ゼロまたは完全な一致からある程度「離れた」ところにある。