[解決済み] spark.sql.shuffle.partitionsとspark.default.parallelismの違いは何ですか?
2022-03-03 02:13:11
質問
とはどう違うのですか?
spark.sql.shuffle.partitions
と
spark.default.parallelism
?
に両方設定しようとしたのですが
SparkSQL
が、2段目のタスク番号が常に200になってしまいます。
どのように解決するのですか?
回答より
こちら
,
spark.sql.shuffle.partitions
は、結合や集約のためにデータをシャッフルする際に使用されるパーティションの数を設定します。
spark.default.parallelism
はデフォルトのパーティション数で
RDD
のような変換によって返される
join
,
reduceByKey
および
parallelize
ユーザが明示的に設定しない場合 ただし
spark.default.parallelism
は、生でしか動作しないようです。
RDD
で、データフレームを扱うときは無視されます。
実行中のタスクが結合や集約でなく、データフレームを使用している場合、これらを設定しても何の効果もありません。しかし、パーティションの数を自分で設定することもできます。
df.repartition(numOfPartitions)
(に代入することを忘れないでください)。
val
) をコードに追加してください。
コード内の設定を変更するには、単純にこうすればよい。
sqlContext.setConf("spark.sql.shuffle.partitions", "300")
sqlContext.setConf("spark.default.parallelism", "300")
あるいは、クラスタにジョブを投入する際に、以下のように変更することも可能です。
spark-submit
:
./bin/spark-submit --conf spark.sql.shuffle.partitions=300 --conf spark.default.parallelism=300
関連
-
[解決済み] callとapplyの違いは何ですか?
-
[解決済み] SQLiteのINSERT/per-secondのパフォーマンスを向上させる
-
[解決済み] B "の印刷が "#"の印刷より劇的に遅いのはなぜですか?
-
[解決済み] クラスター化インデックスと非クラスター化インデックスの実際の意味は何ですか?
-
[解決済み] 2つのリストの差を取得する
-
[解決済み] INNER JOINよりもCROSS APPLYを使用すべきなのはどのような場合ですか?
-
[解決済み] parseInt()とNumber()の違いは何ですか?
-
[解決済み] C++でi++と++iの間に性能差はありますか?
-
[解決済み] Intel CPU の _mm_popcnt_u64 で、32 ビットのループカウンターを 64 ビットに置き換えると、パフォーマンスが著しく低下します。
-
[解決済み】再帰はループより速いことがあるのか?
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
[解決済み] spark.sql.shuffle.partitionsとspark.default.parallelismの違いは何ですか?
-
[解決済み] nの漸近成長でfloor(n/2)を選択する。
-
[解決済み] 最後の手段としてのパフォーマンス最適化戦略【終了しました
-
[解決済み] πの値を最も早く求める方法は何ですか?
-
[解決済み】HTTPとHTTPSのパフォーマンス比較
-
[解決済み】再帰と反復のどちらを選ぶ?
-
[解決済み】長さnのソートされていない配列の中でk番目に大きい要素をO(n)で見つけるにはどうすればよいですか?)
-
[解決済み] gccのffast-mathは実際に何をするのですか?
-
[解決済み] t-sqlのクエリ実行にかかる時間の測定
-
[解決済み] TeamViewerはどうしてこんなに速いのですか?