[解決済み] Spark Dataframeの最初の1000行を取得する方法はありますか？

2023-02-02 06:36:47

質問

私は randomSplit 関数を使用して、開発目的で使用するために少量のデータフレームを取得します。そして、結局、この関数によって返された最初の df を取得します。

val df_subset = data.randomSplit(Array(0.00000001, 0.01), seed = 12345)(0)

もし私が df.take(1000) を使用すると、データフレームではなく行の配列になってしまうので、うまくいきません。

dfの最初の1000行を取り、別のdfとして保存するためのより良い、より簡単な方法はありますか？

お探しの方法は .limit .

最初のn行を取り出し、新しいDatasetを返します。headとの違いは、headが配列を返すのに対して、limitは新しいDatasetを返すことです。

使用例です。

df.limit(1000)