[解決済み] spark.sql.shuffle.partitionsとspark.default.parallelismの違いは何ですか？

2022-03-03 02:13:11

質問

とはどう違うのですか？ spark.sql.shuffle.partitions と spark.default.parallelism ?

に両方設定しようとしたのですが SparkSQL が、2段目のタスク番号が常に200になってしまいます。

どのように解決するのですか？

回答よりこちら , spark.sql.shuffle.partitions は、結合や集約のためにデータをシャッフルする際に使用されるパーティションの数を設定します。

spark.default.parallelism はデフォルトのパーティション数で RDD のような変換によって返される join , reduceByKey および parallelize ユーザが明示的に設定しない場合ただし spark.default.parallelism は、生でしか動作しないようです。 RDD で、データフレームを扱うときは無視されます。

実行中のタスクが結合や集約でなく、データフレームを使用している場合、これらを設定しても何の効果もありません。しかし、パーティションの数を自分で設定することもできます。 df.repartition(numOfPartitions) (に代入することを忘れないでください）。 val ) をコードに追加してください。

コード内の設定を変更するには、単純にこうすればよい。

sqlContext.setConf("spark.sql.shuffle.partitions", "300")
sqlContext.setConf("spark.default.parallelism", "300")

あるいは、クラスタにジョブを投入する際に、以下のように変更することも可能です。 spark-submit :

./bin/spark-submit --conf spark.sql.shuffle.partitions=300 --conf spark.default.parallelism=300

[解決済み] spark.sql.shuffle.partitionsとspark.default.parallelismの違いは何ですか？

質問

どのように解決するのですか？

関連

[解決済み] callとapplyの違いは何ですか？

[解決済み] SQLiteのINSERT/per-secondのパフォーマンスを向上させる

[解決済み] B "の印刷が "#"の印刷より劇的に遅いのはなぜですか？

[解決済み] クラスター化インデックスと非クラスター化インデックスの実際の意味は何ですか？

[解決済み] 2つのリストの差を取得する

[解決済み] INNER JOINよりもCROSS APPLYを使用すべきなのはどのような場合ですか？

[解決済み] parseInt()とNumber()の違いは何ですか？

[解決済み] C++でi++と++iの間に性能差はありますか？

[解決済み] Intel CPU の _mm_popcnt_u64 で、32 ビットのループカウンターを 64 ビットに置き換えると、パフォーマンスが著しく低下します。

[解決済み】再帰はループより速いことがあるのか？

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

[解決済み] spark.sql.shuffle.partitionsとspark.default.parallelismの違いは何ですか？

[解決済み] nの漸近成長でfloor(n/2)を選択する。

[解決済み] 最後の手段としてのパフォーマンス最適化戦略【終了しました

[解決済み] πの値を最も早く求める方法は何ですか？

[解決済み】HTTPとHTTPSのパフォーマンス比較

[解決済み】再帰と反復のどちらを選ぶ？

[解決済み】長さnのソートされていない配列の中でk番目に大きい要素をO(n)で見つけるにはどうすればよいですか？）

[解決済み] gccのffast-mathは実際に何をするのですか？

[解決済み] t-sqlのクエリ実行にかかる時間の測定

[解決済み] TeamViewerはどうしてこんなに速いのですか？