1. ホーム
  2. python

[解決済み] pandasで1つのデータフレームからテストとトレーニングのサンプルを作成するにはどうすればよいですか?

2022-03-22 03:44:25

質問

私はデータフレームの形でかなり大きなデータセットを持っています。私はトレーニングとテストのためにデータフレームを2つのランダムなサンプル(80%と20%)に分割することができるだろうか?

ありがとうございます。

解決方法は?

私なら、単にnumpyの randn :

In [11]: df = pd.DataFrame(np.random.randn(100, 2))

In [12]: msk = np.random.rand(len(df)) < 0.8

In [13]: train = df[msk]

In [14]: test = df[~msk]

そして、これがうまくいったことを確認するために。

In [15]: len(test)
Out[15]: 21

In [16]: len(train)
Out[16]: 79