scikit-learnの分類器に対して最も情報量の多い特徴量を得るには？

2023-10-06 11:24:25

質問

liblinear や nltk などの機械学習パッケージの分類器には、以下のようなメソッドがあります。 show_most_informative_features() を提供しており、これは機能のデバッグにとても便利です。

viagra = None          ok : spam     =      4.5 : 1.0
hello = True           ok : spam     =      4.5 : 1.0
hello = None           spam : ok     =      3.3 : 1.0
viagra = True          spam : ok     =      3.3 : 1.0
casino = True          spam : ok     =      2.0 : 1.0
casino = None          ok : spam     =      1.5 : 1.0

私の質問は、同様のものがscikit-learnの分類器に対して実装されているかどうかです。ドキュメントを検索してみましたが、そのようなものは見つかりませんでした。

もしそのような関数がまだないのであれば、これらの値を取得するための回避策をどなたかご存知でしょうか？

どのように解決するのですか？

larsmansのコードを参考に、バイナリの場合のコードを考えてみました。

def show_most_informative_features(vectorizer, clf, n=20):
    feature_names = vectorizer.get_feature_names()
    coefs_with_fns = sorted(zip(clf.coef_[0], feature_names))
    top = zip(coefs_with_fns[:n], coefs_with_fns[:-(n + 1):-1])
    for (coef_1, fn_1), (coef_2, fn_2) in top:
        print "\t%.4f\t%-15s\t\t%.4f\t%-15s" % (coef_1, fn_1, coef_2, fn_2)

scikit-learnの分類器に対して最も情報量の多い特徴量を得るには？

質問

どのように解決するのですか？

関連

[解決済み] Pythonで現在時刻を取得する方法

[解決済み] Pythonで文字列の部分文字列を取得するにはどうすればよいですか？

[解決済み] リストの要素数を取得する方法

[解決済み] Pandas DataFrameの行数を取得する方法は？

[解決済み] Pythonプログラムの実行時間を取得するにはどうしたらいいですか？

[解決済み] NaN値をチェックするにはどうすればよいですか？

[解決済み] 文字のASCII値を取得する方法

[解決済み】scikit-learnで分類器をディスクに保存する。

[解決済み] Pythonの構文に新しいステートメントを追加することはできますか？

[解決済み] pycharmがタブをスペースに自動変換する

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

[解決済み] Pythonのキャッシュライブラリはありますか？

[解決済み] Pythonの構文に新しいステートメントを追加することはできますか？

[解決済み] Flaskで1時間ごとに関数を実行するようにスケジュールするには？

[解決済み] googletransがエラー 'NoneType' オブジェクトに 'group' 属性がない、と言って動かなくなった。

[解決済み] バブルソートの宿題

[解決済み] 小数点以下1桁を取得する[重複]。

[解決済み] SQLAlchemy: 日付フィールドをフィルタリングする方法は？

[解決済み] Pythonでマルチプロセッシングキューを使うには？

[解決済み] if 節の終了方法

[解決済み] 新しいpip backtrackingの実行時問題の解決