1. ホーム
  2. python

[解決済み] scikit-learnで独自のscorer関数を作成/カスタマイズする方法とは?

2022-02-07 02:40:01

質問内容

を使っています。 サポートベクター回帰 での推定量として GridSearchCV . しかし、私はエラー関数を変更したいのです。デフォルトの(R-2乗:決定係数)を使用する代わりに、私は独自のカスタムエラー関数を定義したいのです。

で作ろうとしたのですが make_scorer しかし、うまくいきませんでした。

ドキュメントを読むと、「このような場合は カスタムエスティメータ しかし、エラー/スコアリング関数だけで、エスティメータ全体を作り直す必要はありません。

に書いてあるように、callableをscorerとして定義することでできると思います。 ドキュメント .

しかし、推定値の使い方がわかりません。私の場合、SVRです。分類器(SVCなど)に切り替える必要があるのでしょうか?また,それをどのように使えばよいのでしょうか?

私のカスタムエラー関数は以下の通りです。

def my_custom_loss_func(X_train_scaled, Y_train_scaled):
    error, M = 0, 0
    for i in range(0, len(Y_train_scaled)):
        z = (Y_train_scaled[i] - M)
        if X_train_scaled[i] > M and Y_train_scaled[i] > M and (X_train_scaled[i] - Y_train_scaled[i]) > 0:
            error_i = (abs(Y_train_scaled[i] - X_train_scaled[i]))**(2*np.exp(z))
        if X_train_scaled[i] > M and Y_train_scaled[i] > M and (X_train_scaled[i] - Y_train_scaled[i]) < 0:
            error_i = -(abs((Y_train_scaled[i] - X_train_scaled[i]))**(2*np.exp(z)))
        if X_train_scaled[i] > M and Y_train_scaled[i] < M:
            error_i = -(abs(Y_train_scaled[i] - X_train_scaled[i]))**(2*np.exp(-z))
    error += error_i
    return error

変数 M はNULL/ZEROではありません。単純化するためにゼロに設定しただけです。

どなたか、このカスタムスコアリング関数の適用例を示していただけませんか?よろしくお願いします。

どのように解決するのですか?

ご覧のように、これは make_scorer ( ドキュメント ).

from sklearn.grid_search import GridSearchCV
from sklearn.metrics import make_scorer
from sklearn.svm import SVR

import numpy as np

rng = np.random.RandomState(1)

def my_custom_loss_func(X_train_scaled, Y_train_scaled):
    error, M = 0, 0
    for i in range(0, len(Y_train_scaled)):
        z = (Y_train_scaled[i] - M)
        if X_train_scaled[i] > M and Y_train_scaled[i] > M and (X_train_scaled[i] - Y_train_scaled[i]) > 0:
            error_i = (abs(Y_train_scaled[i] - X_train_scaled[i]))**(2*np.exp(z))
        if X_train_scaled[i] > M and Y_train_scaled[i] > M and (X_train_scaled[i] - Y_train_scaled[i]) < 0:
            error_i = -(abs((Y_train_scaled[i] - X_train_scaled[i]))**(2*np.exp(z)))
        if X_train_scaled[i] > M and Y_train_scaled[i] < M:
            error_i = -(abs(Y_train_scaled[i] - X_train_scaled[i]))**(2*np.exp(-z))
    error += error_i
    return error

# Generate sample data
X = 5 * rng.rand(10000, 1)
y = np.sin(X).ravel()

# Add noise to targets
y[::5] += 3 * (0.5 - rng.rand(X.shape[0]/5))

train_size = 100

my_scorer = make_scorer(my_custom_loss_func, greater_is_better=True)

svr = GridSearchCV(SVR(kernel='rbf', gamma=0.1),
                   scoring=my_scorer,
                   cv=5,
                   param_grid={"C": [1e0, 1e1, 1e2, 1e3],
                               "gamma": np.logspace(-2, 2, 5)})

svr.fit(X[:train_size], y[:train_size])

print svr.best_params_
print svr.score(X[train_size:], y[train_size:])