[解決済み】SparkのDataFrame、Dataset、RDDの違いについて
2022-03-28 22:52:57
質問
とはどう違うのでしょうか?
RDD
と
DataFrame
(Spark 2.0.0 DataFrame は単なる型のエイリアスで
Dataset[Row]
)
をApache Sparkで使用することはできますか?
一方を他方に変換することはできますか?
どのように解決するのですか?
A
DataFrame
は、グーグル検索で「DataFrame definition"」と検索すると、よく定義されています。
データフレームは、表、または2次元の配列のような構造で 各列には1つの変数に関する測定値が含まれ、各行には は1つのケースを含む。
そのため
DataFrame
は表形式であるため、追加のメタデータを持ち、これによってSparkは最終的なクエリに対して特定の最適化を実行することができます。
について
RDD
は、単に
R
エシリアント
D
ディストリ ビューテッド
D
アタセットとは、最適化できないデータのブラックボックスであり、それに対して実行できる操作に制約があるため、最適化できない。
しかし、DataFrameから
RDD
を経由して、その
rdd
メソッドを使用すると
RDD
から
DataFrame
(RDDが表形式である場合) を介して
toDF
メソッド
一般的に
を使用することが推奨されます。
DataFrame
を使用すると、クエリの最適化が可能になります。
関連
-
[解決済み] Spark - CSVファイルをDataFrameとして読み込む?
-
[解決済み] Pandas DataFrameの行数を取得する方法は?
-
[解決済み] 一行ずつ追加してPandas Dataframeを作成する
-
[解決済み] リストやデータフレームの要素にアクセスするためのブラケット[ ]とダブルブラケット[[ ]]の違いについて
-
[解決済み] Spark - repartition() vs coalesce()
-
[解決済み】pandasでカラムの種類を変更する
-
[解決済み】SparkのDataFrame、Dataset、RDDの違いについて
-
[解決済み】mapとflatMapの違いと、それぞれの良い使用例について教えてください。
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン