[解決済み] spark.sql.shuffle.partitionsとspark.default.parallelismの違いは何ですか？

2022-03-03 20:50:36

質問

とはどう違うのですか？ spark.sql.shuffle.partitions と spark.default.parallelism ?

に両方設定しようとしたのですが SparkSQL が、2段目のタスク番号が常に200になってしまいます。

どのように解決するのですか？

回答よりこちら , spark.sql.shuffle.partitions は、結合や集約のためにデータをシャッフルする際に使用されるパーティションの数を設定します。

spark.default.parallelism はデフォルトのパーティション数で RDD のような変換によって返される join , reduceByKey および parallelize ユーザが明示的に設定しない場合ただし spark.default.parallelism は、生でしか動作しないようです。 RDD で、データフレームを扱うときは無視されます。

実行中のタスクが結合や集約でなく、データフレームを使用している場合、これらを設定しても何の効果もありません。しかし、パーティションの数を自分で設定することもできます。 df.repartition(numOfPartitions) (に代入することを忘れないでください）。 val ) をコードに追加してください。

コード内の設定を変更するには、単純にこうすればよい。

sqlContext.setConf("spark.sql.shuffle.partitions", "300")
sqlContext.setConf("spark.default.parallelism", "300")

あるいは、クラスタにジョブを投入する際に、以下のように変更することも可能です。 spark-submit :

./bin/spark-submit --conf spark.sql.shuffle.partitions=300 --conf spark.default.parallelism=300

[解決済み] spark.sql.shuffle.partitionsとspark.default.parallelismの違いは何ですか？

質問

どのように解決するのですか？

関連

[解決済み] HadoopのMapreduceジョブでJVMを再利用する。

[解決済み] callとapplyの違いは何ですか？

[解決済み] SQLiteのINSERT/per-secondのパフォーマンスを向上させる

[解決済み] B "の印刷が "#"の印刷より劇的に遅いのはなぜですか？

[解決済み] クラスター化インデックスと非クラスター化インデックスの実際の意味は何ですか？

[解決済み] 2つのリストの差を取得する

[解決済み] INNER JOINよりもCROSS APPLYを使用すべきなのはどのような場合ですか？

[解決済み] parseInt()とNumber()の違いは何ですか？

[解決済み] C++でi++と++iの間に性能差はありますか？

[解決済み] Intel CPU の _mm_popcnt_u64 で、32 ビットのループカウンターを 64 ビットに置き換えると、パフォーマンスが著しく低下します。

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

[解決済み] HadoopのMapreduceジョブでJVMを再利用する。

[解決済み] πの値を最も早く求める方法は何ですか？

[解決済み】JSFがゲッターを複数回呼び出す理由

[解決済み】再帰と反復のどちらを選ぶ？

[解決済み】GHCコアの読み込み

[解決済み] gccのffast-mathは実際に何をするのですか？

[解決済み] 与えられた数の除数の数を計算するアルゴリズム

[解決済み] x86アセンブリでレジスタをゼロに設定するには、xor、mov、andのどれが一番良い方法ですか？

[解決済み】2次元の点がポリゴン内にあるかどうかを判断するにはどうしたらいいですか？

[解決済み] フィボナッチヒープを実際に効率よく実装した人はいますか？