[解決済み] クロスバリデーションなどのために、データセットをトレーニング用とテスト用に分割するにはどうしたらいいですか?
2022-09-06 05:45:30
質問
NumPyの配列をランダムにトレーニング用とテスト/検証用のデータセットに分割する良い方法は何でしょうか?何か似たような
cvpartition
または
crossvalind
関数を使用することができます。
どのように解決するのですか?
データセットを一度2つに分割したい場合は
numpy.random.shuffle
とするか、あるいは
numpy.random.permutation
で、インデックスを追跡する必要があります (再現性を高めるため、ランダムシードを固定することを忘れないでください)。
import numpy
# x is your dataset
x = numpy.random.rand(100, 5)
numpy.random.shuffle(x)
training, test = x[:80,:], x[80:,:]
または
import numpy
# x is your dataset
x = numpy.random.rand(100, 5)
indices = numpy.random.permutation(x.shape[0])
training_idx, test_idx = indices[:80], indices[80:]
training, test = x[training_idx,:], x[test_idx,:]
いろいろな方法があります。
は、クロスバリデーションのために同じデータセットを繰り返し分割する多くの方法があります。それらの多くは
で利用可能です。
sklearn
ライブラリ
(k-fold, leave-n-out, ...) を利用することができます。
sklearn
には、より高度な
"層別サンプリング"。
のような、いくつかの特徴に関してバランスの取れたデータのパーティションを作成する方法も含まれます。
関連
-
[解決済み] 配列から特定の項目を削除するにはどうすればよいですか?
-
[解決済み] JavaScript で配列に値が含まれているかどうかを確認するにはどうすればよいですか?
-
[解決済み] SQLiteのINSERT/per-secondのパフォーマンスを向上させる
-
[解決済み] リストを均等な大きさの塊に分割するには?
-
[解決済み] Python 3で「1000000000000000 in range(1000000000000001)」はなぜ速いのですか?
-
[解決済み] Java の配列を表示する最も簡単な方法は何ですか?
-
[解決済み] 複数行の長い文字列を作成するためのPythonicな方法
-
[解決済み] 整数の平方根が整数であるかどうかを判断する最速の方法
-
[解決済み] Pythonスクリプトのプロファイリングはどのように行うのですか?
-
[解決済み] Bashで文字列を配列に分割する方法は?
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
[解決済み】ImportError: sklearn.cross_validation という名前のモジュールがない。
-
[解決済み] PythonでのAWS Lambdaのインポートモジュールエラー
-
[解決済み] DataFrameに日付間の日数カラムを追加する pandas
-
[解決済み] python-requests モジュールからのすべてのリクエストをログに記録します。
-
[解決済み] pandasのタイムゾーンに対応したDateTimeIndexを、特定のタイムゾーンに対応したナイーブなタイムスタンプに変換する。
-
[解決済み] Ctrl-CでPythonスクリプトを終了できない
-
[解決済み] あるオブジェクトが数であるかどうかを確認する、最もパイソン的な方法は何でしょうか?
-
[解決済み] djangoフレームワークでフォームフィールドから値を取得するには?
-
[解決済み] Pandasのデータフレーム内の文字列を'date'データ型に変換するにはどうしたらいいですか?
-
[解決済み] virtualenvsはどこに作成するのですか?