疎な行列データからコサイン類似度を計算するPythonの最速の方法は何ですか？

2023-08-22 08:42:04

質問

疎な行列のリストが与えられたとき、行列の各列（または行）の間のコサイン類似度を計算する最良の方法は何でしょうか？私はむしろn-choose-2回反復しないようにしたい。

入力行列があるとします。

スパース表現が

A = 
0, 1
0, 4
1, 2
1, 3
1, 4
2, 0
2, 1
2, 3

Pythonでは、matrix-input形式を扱うのは簡単です。

import numpy as np
from sklearn.metrics import pairwise_distances
from scipy.spatial.distance import cosine

A = np.array(
[[0, 1, 0, 0, 1],
[0, 0, 1, 1, 1],
[1, 1, 0, 1, 0]])

dist_out = 1-pairwise_distances(A, metric="cosine")
dist_out

与える。

array([[ 1.        ,  0.40824829,  0.40824829],
       [ 0.40824829,  1.        ,  0.33333333],
       [ 0.40824829,  0.33333333,  1.        ]])

全行列入力の場合はそれで良いのですが、私は本当に（私の行列のサイズとスパース性のために）スパース表現から始めたいのです。どのようにしたらこれを達成できるのか、何かアイデアはありますか？よろしくお願いします。

どのように解決するのですか?

sklearn を使って、疎な行列の行のペアワイズコサイン類似度を直接計算することができます。バージョン0.17では、疎な出力もサポートしています。

from sklearn.metrics.pairwise import cosine_similarity
from scipy import sparse

A =  np.array([[0, 1, 0, 0, 1], [0, 0, 1, 1, 1],[1, 1, 0, 1, 0]])
A_sparse = sparse.csr_matrix(A)

similarities = cosine_similarity(A_sparse)
print('pairwise dense output:\n {}\n'.format(similarities))

#also can output sparse matrices
similarities_sparse = cosine_similarity(A_sparse,dense_output=False)
print('pairwise sparse output:\n {}\n'.format(similarities_sparse))

結果

pairwise dense output:
[[ 1.          0.40824829  0.40824829]
[ 0.40824829  1.          0.33333333]
[ 0.40824829  0.33333333  1.        ]]

pairwise sparse output:
(0, 1)  0.408248290464
(0, 2)  0.408248290464
(0, 0)  1.0
(1, 0)  0.408248290464
(1, 2)  0.333333333333
(1, 1)  1.0
(2, 1)  0.333333333333
(2, 0)  0.408248290464
(2, 2)  1.0

列方向の余弦類似度が欲しい場合は、入力行列をあらかじめ転置しておくだけです。

A_sparse.transpose()

疎な行列データからコサイン類似度を計算するPythonの最速の方法は何ですか？

質問

どのように解決するのですか?

関連

[解決済み] Pythonで型をチェックする標準的な方法は何ですか？

[解決済み] pandasのDataFrameから空のセルを含む行を削除する

[解決済み] Python 3でバイナリデータを標準出力に書き込むには？

[解決済み] データフレームをソートした後にインデックスを更新する

[解決済み] PythonからSMTPを使用してメールを送信する

[解決済み] PyMongoで.sortを使用する

[解決済み] Ctrl-CでPythonスクリプトを終了できない

[解決済み] Pythonでマルチプロセッシングキューを使うには？

[解決済み] 新しいpip backtrackingの実行時問題の解決

[解決済み] Alembicアップグレードスクリプトでインサートやアップデートを実行するにはどうすればよいですか？

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

[解決済み] Pythonのマルチプロセッシングプールimap_unorderedの呼び出しの進捗を表示しますか？

[解決済み] Pythonの構文に新しいステートメントを追加することはできますか？

[解決済み] タプルのリストを複数のリストに変換するには？

[解決済み] Python 2.7サポート終了？

[解決済み] 値で列挙名を取得する [重複]。

[解決済み] 範囲指定された浮動小数点数のランダムな配列を生成します。

[解決済み] Ctrl-CでPythonスクリプトを終了できない

[解決済み] Flask でグローバル変数はスレッドセーフか？リクエスト間でデータを共有するには？

[解決済み] Pythonの辞書にあるスレッドセーフについて

[解決済み] 認証プラグイン 'caching_sha2_password' はサポートされていません。