1. ホーム
  2. apache-spark

[解決済み] Spark: 2つのDataFrameを減算する

2022-02-10 04:05:13

質問

Sparkバージョンでは 1.2.0 を使用することができます。 subtract と2 SchemRDD のように、最初のコンテンツと異なるコンテンツだけが残るようにします。

val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)

onlyNewData の行が含まれます。 todaySchemRDD に存在しない yesterdaySchemaRDD .

でどのように実現できるのでしょうか? DataFrames Spark版では 1.3.0 ?

解決方法は?

によると スカラ API ドキュメント を、している。

dataFrame1.except(dataFrame2)

は、dataFrame1 の行を含み、dataframe2 の行を含まない新しい DataFrame を返します。