[解決済み】spark.driver.maxResultSizeとは何ですか?
質問
は レフ は言う。
各パーティションのシリアル化された結果の合計サイズの制限 Sparkアクション(例:collect)。最低でも1M、0を指定すると 無制限です。合計サイズがこの制限を超えると、ジョブは中断されます。 高い制限値を設定すると、ドライバでメモリ不足のエラーが発生する可能性があります( spark.driver.memoryおよびJVM内のオブジェクトのメモリオーバーヘッドに依存します)。設定 適切な上限値を設定することで、ドライバをメモリ不足のエラーから保護することができます。
この属性は具体的に何をするのでしょうか?私は最初、(メモリ不足のエラーで失敗するジョブと戦っているわけではないので)それを増やすべきだと思ったという意味です。
よく考えてみると、この属性はワーカーがドライバに送る結果の最大サイズを定義しているようなので、デフォルト(1G)のままにしておくのがドライバを保護する最善の方法でしょう。
しかし、この場合、ワーカーはより多くのメッセージを送信しなければならないので、オーバーヘッドは、ジョブが遅くなるだけでしょうか?
もし私の理解が正しければ、ワーカーが4Gのデータをドライバに送信したいと仮定した場合、ワーカーに
spark.driver.maxResultSize=1G
の場合、ワーカーは4つのメッセージを送信することになります(無制限の
spark.driver.maxResultSize
). もしそうなら、私のドライバがYarnから暗殺されないようにするためにこの属性を増やすのは間違っているはずです。
しかし、まだ上記の疑問は残ります。つまり、1M(最小値)に設定した場合、最も保護的なアプローチになるのでしょうか?
解決方法は?
<ブロッククオートWorkerが4GのデータをDriverに送りたい場合、spark.driver.maxResultSize=1Gにすると、Workerは4つのメッセージを送ることになります(無制限のspark.driver.maxResultSizeでは1つではなく、4つ)。
いいえ、データの推定サイズが
maxResultSize
与えられたジョブは中断されます。ここでの目標は、ドライバの損失からアプリケーションを保護することであり、それ以上ではありません。
1M(最小値)に設定した場合、最も保護的なアプローチになるのでしょうか?
感覚的にはそうですが、実際には役に立たないことは明らかです。良い値は、アプリケーションを正常に進行させ、予期しない条件からアプリケーションを保護する必要があります。
関連
-
[解決済み] Spark が "java.net.URISyntaxException" を報告するのはなぜですか?DataFrameを使用する際に「java.net.URIStyntaxException: Relative path in absolute URI」と表示されるのはなぜですか?
-
[解決済み] format("kafka") で "Failed to find data source: kafka." とエラーになるのはなぜですか?(uber-jarを使用しても)失敗しますか?
-
[解決済み] pyspark : NameError: name 'spark' is not defined.
-
[解決済み] スパークジョブとは?
-
[解決済み] 実行中のSparkアプリケーションを終了させるには?
-
[解決済み] spark checkpointとpersist to a diskの違いは何ですか?
-
[解決済み] Spark - repartition() vs coalesce()
-
[解決済み】SparkコンソールにINFOメッセージを表示させないようにするには?
-
[解決済み】Spark StandaloneクラスタのWorker、Executor、Coreとは何ですか?
-
[解決済み] 複数のテキストファイルを1つのRDDに読み込むには?
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
[解決済み] spark.sql.autoBroadcastJoinThresholdは、Datasetの結合演算子を使用して結合するために動作しますか?
-
[解決済み] sparkでsaveAsTextFileするときのファイル名の付け方は?
-
[解決済み] Sparkクラスタがハートビートのタイムアウトでいっぱいになり、エグゼキュータが勝手に終了してしまう。
-
[解決済み] pyspark : NameError: name 'spark' is not defined.
-
[解決済み] Sparkのバージョンを確認する方法【終了しました
-
[解決済み] spark.yarn.executor.memoryOverhead "の設定値?
-
[解決済み] spark checkpointとpersist to a diskの違いは何ですか?
-
[解決済み] TypeError: 'Column' オブジェクトは WithColumn を使用して呼び出すことができません。
-
[解決済み] Spark - repartition() vs coalesce()
-
[解決済み】mapとflatMapの違いと、それぞれの良い使用例について教えてください。