[解決済み] スパーク "プランの文字列表現が大きすぎたため、切り捨てました。" 手動で作成した集計式を使用した場合の警告

2022-02-05 18:10:18

質問

私は、各ユーザーについて、1日1時間あたりの平均レコード数を含むベクトルを作成しようとしています。したがって、ベクトルは24次元である必要があります。

私のオリジナルのDataFrameは userID と hour カラムを作成することから始めています。 groupBy で、1時間あたりの1ユーザーあたりのレコード数を次のようにカウントしています。

val hourFreqDF = df.groupBy("userID", "hour").agg(count("*") as "hfreq")

さて、ユーザーごとのベクトルを生成するために、私は以下のようにしています。これの回答です。

val hours = (0 to 23 map { n => s"$n" } toArray)

val assembler = new VectorAssembler()
                     .setInputCols(hours)
                     .setOutputCol("hourlyConnections")

val exprs = hours.map(c => avg(when($"hour" === c, $"hfreq").otherwise(lit(0))).alias(c))

val transformed = assembler.transform(hourFreqDF.groupBy($"userID")
                           .agg(exprs.head, exprs.tail: _*))

このサンプルを実行すると、次のような警告が表示されます。

Truncated the string representation of a plan since it was too large. This behavior can be adjusted by setting 'spark.debug.maxToStringFields' in SparkEnv.conf.

これは、式が長すぎるためだと推測されますが？

質問ですが、この警告は無視して大丈夫ですか？

解決方法を教えてください。

SQLスキーマのログを見ることに興味がないのであれば、無視しても大丈夫です。そうでなければ，このプロパティをより高い値に設定したいかもしれませんが，ジョブのパフォーマンスに影響を与えるかもしれません．

spark.debug.maxToStringFields=100

デフォルト値は DEFAULT_MAX_TO_STRING_FIELDS = 25

文字列の作成とロギングに伴うパフォーマンスのオーバーヘッドのスキーマの幅が大きくなる可能性があります。この影響を抑えるために、私たちはデフォルトで含まれるフィールドの数。これは以下の方法で上書きすることができます。 SparkEnv.Confに 'spark.debug.maxToStringFields' を設定します。

から引用しています。 https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/util/Utils.scala#L90

[解決済み] スパーク "プランの文字列表現が大きすぎたため、切り捨てました。" 手動で作成した集計式を使用した場合の警告

質問

解決方法を教えてください。

関連

[解決済み] PySparkのデータフレームで、各キーのパーセンタイルはどのように計算されますか？

[解決済み] Spark コンテキスト 'sc' が定義されていない

[解決済み] Spark が "java.net.URISyntaxException" を報告するのはなぜですか？DataFrameを使用する際に「java.net.URIStyntaxException: Relative path in absolute URI」と表示されるのはなぜですか？

[解決済み] Apache SparkとAkkaの比較【終了しました

[解決済み] Spark: 2つのDataFrameを減算する

[解決済み] Sparkのバージョンを確認する方法【終了しました

[解決済み] spark.yarn.executor.memoryOverhead "の設定値？

[解決済み] Spark - repartition() vs coalesce()

[解決済み】Spark Dataframeで列の内容をすべて表示するにはどうすればよいですか？

[解決済み】Spark StandaloneクラスタのWorker、Executor、Coreとは何ですか？

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

[解決済み] SparkでcreateOrReplaceTempViewはどのように動作するのですか？

[解決済み] Apache SparkとAkkaの比較【終了しました

[解決済み] spark 2.4.4 をインストールした後に pyspark を実行しようとすると、「TypeError: an integer is required (got type bytes)」というエラーが発生するのを修正する方法

[解決済み] ShuffledRDD、MapPartitionsRDD、ParallelCollectionRDDの違いは何ですか？

[解決済み] Sparkクラスタがハートビートのタイムアウトでいっぱいになり、エグゼキュータが勝手に終了してしまう。

[解決済み] Sparkのバージョンを確認する方法【終了しました

[解決済み] スパークジョブとは？

[解決済み] spark.yarn.executor.memoryOverhead "の設定値？

[解決済み] TypeError: 'Column' オブジェクトは WithColumn を使用して呼び出すことができません。

[解決済み] プロパティspark.yarn.jars - どのようにそれに対処するのですか？