1. ホーム
  2. apache-spark

[解決済み] Apache SparkのWeb UIにおける「Stage Skipped」の意味とは?

2022-11-22 03:18:26

質問

SparkのUIから。スキップされたとはどういう意味ですか?

どのように解決するのですか?

一般的には、データがキャッシュから取得され、指定されたステージを再実行する必要がないことを意味します。これは、次のステージでシャッフルを必要とすることを示すあなたの DAG と一貫しています ( reduceByKey ). シャッフリングが行われる場合は常にSpark は生成されたデータを自動的にキャッシュする :

Shuffleはまた、ディスク上に大量の中間ファイルを生成します。Spark 1.3では、これらのファイルは対応するRDDが使用されなくなり、ガベージコレクションされるまで保存されます。これは、系統が再計算された場合にシャッフルファイルを再作成する必要がないようにするためです。