1. ホーム
  2. dataframe

[解決済み】SparkのDataFrame、Dataset、RDDの違いについて

2022-03-28 22:52:57

質問

とはどう違うのでしょうか? RDDDataFrame (Spark 2.0.0 DataFrame は単なる型のエイリアスで Dataset[Row] ) をApache Sparkで使用することはできますか?

一方を他方に変換することはできますか?

どのように解決するのですか?

A DataFrame は、グーグル検索で「DataFrame definition"」と検索すると、よく定義されています。

データフレームは、表、または2次元の配列のような構造で 各列には1つの変数に関する測定値が含まれ、各行には は1つのケースを含む。

そのため DataFrame は表形式であるため、追加のメタデータを持ち、これによってSparkは最終的なクエリに対して特定の最適化を実行することができます。

について RDD は、単に R エシリアント D ディストリ ビューテッド D アタセットとは、最適化できないデータのブラックボックスであり、それに対して実行できる操作に制約があるため、最適化できない。

しかし、DataFrameから RDD を経由して、その rdd メソッドを使用すると RDD から DataFrame (RDDが表形式である場合) を介して toDF メソッド

一般的に を使用することが推奨されます。 DataFrame を使用すると、クエリの最適化が可能になります。