[解決済み] Sparkジョブがorg.apache.spark.shuffle.MetadataFetchFailedExceptionで失敗する理由は何ですか？Shuffle 0 の投機モードでの出力場所がない？

2022-11-19 16:36:35

質問

Sparkのジョブを投機モードで実行しています。約500のタスクと、1 GB gzの圧縮された約500のファイルを持っています。私は各ジョブで、1-2タスクについて、添付のエラーが発生し続け、その後何十回も再実行されます（ジョブが完了するのを妨げます）。

org.apache.spark.shuffle.MetadataFetchFailedException: shuffle 0 の出力場所がありません。

この問題の意味と解決方法について教えてください。

org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 0
    at org.apache.spark.MapOutputTracker$$anonfun$org$apache$spark$MapOutputTracker$$convertMapStatuses$1.apply(MapOutputTracker.scala:384)
    at org.apache.spark.MapOutputTracker$$anonfun$org$apache$spark$MapOutputTracker$$convertMapStatuses$1.apply(MapOutputTracker.scala:381)
    at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:244)
    at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:244)
    at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33)
    at scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:108)
    at scala.collection.TraversableLike$class.map(TraversableLike.scala:244)
    at scala.collection.mutable.ArrayOps$ofRef.map(ArrayOps.scala:108)
    at org.apache.spark.MapOutputTracker$.org$apache$spark$MapOutputTracker$$convertMapStatuses(MapOutputTracker.scala:380)
    at org.apache.spark.MapOutputTracker.getServerStatuses(MapOutputTracker.scala:176)
    at org.apache.spark.shuffle.hash.BlockStoreShuffleFetcher$.fetch(BlockStoreShuffleFetcher.scala:42)
    at org.apache.spark.shuffle.hash.HashShuffleReader.read(HashShuffleReader.scala:40)
    at org.apache.spark.rdd.ShuffledRDD.compute(ShuffledRDD.scala:92)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:263)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:230)
    at org.apache.spark.rdd.MappedRDD.compute(MappedRDD.scala:31)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:263)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:230)
    at org.apache.spark.rdd.FlatMappedRDD.compute(FlatMappedRDD.scala:33)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:263)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:230)
    at org.apache.spark.rdd.MappedRDD.compute(MappedRDD.scala:31)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:263)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:230)
    at org.apache.spark.rdd.MappedRDD.compute(MappedRDD.scala:31)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:263)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:230)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:61)
    at org.apache.spark.scheduler.Task.run(Task.scala:56)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:196)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:722)

どのように解決するのですか？

これは、ワーカーノードが持っている以上のメモリを与えたときに起こりました。スワップがないため、シャッフルのためにオブジェクトを格納しようとしたときに、メモリがもう残っていない状態でsparkがクラッシュしました。

解決策は、スワップを追加するか、いくつかの永続化に対してMEMORY_AND_DISKストレージレベルを使用することに加えて、より少ないメモリを使用するようにワーカー/エグゼキューターを構成することでした。

[解決済み] Sparkジョブがorg.apache.spark.shuffle.MetadataFetchFailedExceptionで失敗する理由は何ですか？Shuffle 0 の投機モードでの出力場所がない？

質問

どのように解決するのですか？

関連

[解決済み] spark.sql.autoBroadcastJoinThresholdは、Datasetの結合演算子を使用して結合するために動作しますか？

[解決済み] SparkでcreateOrReplaceTempViewはどのように動作するのですか？

[解決済み] PySparkのデータフレームで、各キーのパーセンタイルはどのように計算されますか？

[解決済み] Spark コンテキスト 'sc' が定義されていない

[解決済み] format("kafka") で "Failed to find data source: kafka." とエラーになるのはなぜですか？(uber-jarを使用しても)失敗しますか？

[解決済み] spark 2.4.4 をインストールした後に pyspark を実行しようとすると、「TypeError: an integer is required (got type bytes)」というエラーが発生するのを修正する方法

[解決済み] sparkでsaveAsTextFileするときのファイル名の付け方は？

[解決済み] Sparkクラスタがハートビートのタイムアウトでいっぱいになり、エグゼキュータが勝手に終了してしまう。

[解決済み】Spark StandaloneクラスタのWorker、Executor、Coreとは何ですか？

[解決済み] 複数のテキストファイルを1つのRDDに読み込むには？

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

[解決済み] スパーク "プランの文字列表現が大きすぎたため、切り捨てました。" 手動で作成した集計式を使用した場合の警告

[解決済み] ShuffledRDD、MapPartitionsRDD、ParallelCollectionRDDの違いは何ですか？

[解決済み] Sparkクラスタがハートビートのタイムアウトでいっぱいになり、エグゼキュータが勝手に終了してしまう。

[解決済み] pyspark : NameError: name 'spark' is not defined.

[解決済み] Sparkのバージョンを確認する方法【終了しました

[解決済み] spark checkpointとpersist to a diskの違いは何ですか？

[解決済み] プロパティspark.yarn.jars - どのようにそれに対処するのですか？

[解決済み] Spark - repartition() vs coalesce()

[解決済み】Spark Dataframeで列の内容をすべて表示するにはどうすればよいですか？

[解決済み】SparkコンソールにINFOメッセージを表示させないようにするには？