2つの文の文字列が与えられたときの余弦類似度を計算する

2023-07-31 02:25:47

質問

から Python: tf-idf-cosine: ドキュメントの類似性を検索する。を見ると、tf-idf cosineを使って文書の類似度を計算することができるようです。外部ライブラリを利用せずに、2つの文字列のcosine類似度を計算する方法はないのでしょうか？

s1 = "This is a foo bar sentence ."
s2 = "This sentence is similar to a foo bar sentence ."
s3 = "What is this string ? Totally not related to the other two lines ."

cosine_sim(s1, s2) # Should give high cosine similarity
cosine_sim(s1, s3) # Shouldn't give high cosine similarity value
cosine_sim(s2, s3) # Shouldn't give high cosine similarity value

どのように解決するのですか？

単純な純粋なPythonの実装は、次のようになります。

import math
import re
from collections import Counter

WORD = re.compile(r"\w+")


def get_cosine(vec1, vec2):
    intersection = set(vec1.keys()) & set(vec2.keys())
    numerator = sum([vec1[x] * vec2[x] for x in intersection])

    sum1 = sum([vec1[x] ** 2 for x in list(vec1.keys())])
    sum2 = sum([vec2[x] ** 2 for x in list(vec2.keys())])
    denominator = math.sqrt(sum1) * math.sqrt(sum2)

    if not denominator:
        return 0.0
    else:
        return float(numerator) / denominator


def text_to_vector(text):
    words = WORD.findall(text)
    return Counter(words)


text1 = "This is a foo bar sentence ."
text2 = "This sentence is similar to a foo bar sentence ."

vector1 = text_to_vector(text1)
vector2 = text_to_vector(text2)

cosine = get_cosine(vector1, vector2)

print("Cosine:", cosine)

印刷します。

Cosine: 0.861640436855

ここで使われるコサインの公式を説明します。ここで .

これにはtf-idfによる単語の重み付けは含まれていませんが、tf-idfを使うためには、tfidfの重みを推定するために、それなりに大きなコーパスが必要です。

また、テキストの一部から単語を抽出し、ステム処理またはレマタイズするなど、より洗練された方法を使用して、さらに発展させることができます。

2つの文の文字列が与えられたときの余弦類似度を計算する

質問

どのように解決するのですか？

関連

[解決済み] JavaScriptで複数行の文字列を作成する

[解決済み] 与えられたキーがすでに辞書に存在するかどうかをチェックする

[解決済み] C#で文字列のエンコーディングを手動で指定せずに、一貫性のあるバイト表現を得るには？

[解決済み] ランダムな文字列を使用するこのコードは、なぜ "hello world" と表示されるのですか？

[解決済み] SQLAlchemy: セッションの作成と再利用

[解決済み] PythonでファイルのMD5チェックサムを計算するには？重複

[解決済み] Pythonです。未束縛のメソッドを束縛する？

[解決済み] Cythonのコードを含むPythonパッケージはどのように構成すればよいのでしょうか？

[解決済み] Flask でグローバル変数はスレッドセーフか？リクエスト間でデータを共有するには？

[解決済み] Pythonで、ウェブサイトが404か200かを確認するためにurllibをどのように使用しますか？

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

[解決済み] SQLAlchemy: 日付フィールドをフィルタリングする方法は？

[解決済み] なぜ(0-6)は-6＝偽なのか？重複

[解決済み] Django Rest Framework ファイルアップロード

[解決済み] PythonからSMTPを使用してメールを送信する

[解決済み] 文字列のリストを内容に基づいてフィルタリングする

[解決済み] 異なる順序で同じ要素を持つ2つのJSONオブジェクトを等しく比較するには？

[解決済み] PyQtアプリケーションのスレッド化。QtスレッドとPythonスレッドのどちらを使うか？

[解決済み] if 節の終了方法

[解決済み] 認証プラグイン 'caching_sha2_password' はサポートされていません。

[解決済み] Python: tf-idf-cosine: 文書の類似性を検索する。