[解決済み] クロスバリデーションなどのために、データセットをトレーニング用とテスト用に分割するにはどうしたらいいですか？

2022-09-06 05:45:30

質問

NumPyの配列をランダムにトレーニング用とテスト/検証用のデータセットに分割する良い方法は何でしょうか？何か似たような cvpartition または crossvalind 関数を使用することができます。

どのように解決するのですか？

データセットを一度2つに分割したい場合は numpy.random.shuffle とするか、あるいは numpy.random.permutation で、インデックスを追跡する必要があります (再現性を高めるため、ランダムシードを固定することを忘れないでください)。

import numpy
# x is your dataset
x = numpy.random.rand(100, 5)
numpy.random.shuffle(x)
training, test = x[:80,:], x[80:,:]

または

import numpy
# x is your dataset
x = numpy.random.rand(100, 5)
indices = numpy.random.permutation(x.shape[0])
training_idx, test_idx = indices[:80], indices[80:]
training, test = x[training_idx,:], x[test_idx,:]

いろいろな方法があります。は、クロスバリデーションのために同じデータセットを繰り返し分割する多くの方法があります。それらの多くはで利用可能です。 sklearn ライブラリ (k-fold, leave-n-out, ...) を利用することができます。 sklearn には、より高度な "層別サンプリング"。のような、いくつかの特徴に関してバランスの取れたデータのパーティションを作成する方法も含まれます。

[解決済み] クロスバリデーションなどのために、データセットをトレーニング用とテスト用に分割するにはどうしたらいいですか？

質問

どのように解決するのですか？

関連

[解決済み] 配列から特定の項目を削除するにはどうすればよいですか？

[解決済み] JavaScript で配列に値が含まれているかどうかを確認するにはどうすればよいですか？

[解決済み] SQLiteのINSERT/per-secondのパフォーマンスを向上させる

[解決済み] リストを均等な大きさの塊に分割するには？

[解決済み] Python 3で「1000000000000000 in range(1000000000000001)」はなぜ速いのですか？

[解決済み] Java の配列を表示する最も簡単な方法は何ですか？

[解決済み] 複数行の長い文字列を作成するためのPythonicな方法

[解決済み] 整数の平方根が整数であるかどうかを判断する最速の方法

[解決済み] Pythonスクリプトのプロファイリングはどのように行うのですか？

[解決済み] Bashで文字列を配列に分割する方法は？

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

[解決済み】ImportError: sklearn.cross_validation という名前のモジュールがない。

[解決済み] PythonでのAWS Lambdaのインポートモジュールエラー

[解決済み] DataFrameに日付間の日数カラムを追加する pandas

[解決済み] python-requests モジュールからのすべてのリクエストをログに記録します。

[解決済み] pandasのタイムゾーンに対応したDateTimeIndexを、特定のタイムゾーンに対応したナイーブなタイムスタンプに変換する。

[解決済み] Ctrl-CでPythonスクリプトを終了できない

[解決済み] あるオブジェクトが数であるかどうかを確認する、最もパイソン的な方法は何でしょうか？

[解決済み] djangoフレームワークでフォームフィールドから値を取得するには？

[解決済み] Pandasのデータフレーム内の文字列を'date'データ型に変換するにはどうしたらいいですか？

[解決済み] virtualenvsはどこに作成するのですか？