apache-spark - BinaryDevelop

[解決済み] プロパティspark.yarn.jars - どのようにそれに対処するのですか？

質問内容私のSparkに関する知識は限られており、この質問を読めばそれが分かると思います。私は1つのノードを持っており、spark、hadoop、yarnはその上にインストールされています。私は以下のコマンドで、クラスタモードでワードカウントの問題をコーディングし、実行することができました。 spark-submit --class com.sanjeevd.sparksimpl

2022-03-15 17:02:47
[解決済み] TypeError: 'Column' オブジェクトは WithColumn を使用して呼び出すことができません。

質問データフレーム(df)に新しいカラムを追加したいのですが、関数 get_distance : def get_distance(x, y): dfDistPerc = hiveContext.sql("select column3 as column3, \ from tab \

2022-03-07 04:36:13
[解決済み] spark checkpointとpersist to a diskの違いは何ですか？

質問 spark checkpointとpersist to a diskの違いは何ですか？どちらもローカルディスクに保存されるのでしょうか？どのように解決するのですか？いくつかの重要な違いがありますが、根本的な違いは、リネージがどうなるかということです。 Persist / cache は、系統を維持したまま checkpoint は系統を断ち切ります。次のような例

2022-03-05 03:53:49
[解決済み] ShuffledRDD、MapPartitionsRDD、ParallelCollectionRDDの違いは何ですか？

質問 Spark RDDを生成するために2つの異なる方法を使用しています。そして、Spark UI DAGチャートの結果はかなり異なっています。どなたか違いを教えてください。私の仕事では、同じような操作で1番目の方が2番目の方より速いのです。どのように解決するのですか？ 1ステージのDAGでは、単にコレクションでRDDを作成し、2番目のRDDでは、pa

2022-03-04 18:27:39
[解決済み] 実行中のSparkアプリケーションを終了させるには？

質問 Sparkアプリケーションを実行していますが、他のアプリケーションにリソースが割り当てられないように、すべてのコアを占有しています。私はいくつかのクイックリサーチを行い、人々はYARN killまたは/bin/spark-classを使用してコマンドを終了させることを提案しました。しかし、私はCDHバージョンを使用しており、/bin/spark-classはまったく存在せず、YA

2022-03-03 14:34:56
[解決済み] spark.yarn.executor.memoryOverhead "の設定値？

質問の値は？ spark.yarn.executor.memoryOverhead YARNを使用したSparkジョブでは、Appに割り当てるべきでしょうか、それとも最大値だけでしょうか？解決方法を教えてください。 spark.yarn.executor.memoryOverhead 目標は、RDDやDataFrameで使用される、実際の実行メモリに対するOVERHEADの

2022-03-03 03:26:28
[解決済み] スパークジョブとは？

質問すでにsparkのインストールを終え、マスターノードとワーカーノードを設定していくつかのテストケースを実行しました。とはいえ、Sparkのコンテキスト（SparkContextではない）でジョブとは一体何を意味するのか、非常に太い混乱があります。私は以下の質問を持っています。ジョブとドライバプログラムはどう違うのですか？アプリケーション自体もドライバプログラムの一部ですか

2022-03-02 01:12:17
[解決済み] Sparkのバージョンを確認する方法【終了しました

質問閉店しました。この質問にはデバッギング詳細 . 現在、回答は受け付けておりません。 <パスこの質問を改善したいですか？質問を更新して、それがオントピック Stack Overflow用です。

2022-02-25 04:17:52
[解決済み] pyspark : NameError: name 'spark' is not defined.

質問公式ドキュメントサイトにあるpyspark.mlのサンプルをコピーしています。 http://spark.apache.org/docs/latest/api/python/pyspark.ml.html#pyspark.ml.Transformer data = [(Vectors.dense([0.0, 0.0]),), (Vectors.dense([1.0, 1.0])

2022-02-24 18:05:47
[解決済み] Sparkクラスタがハートビートのタイムアウトでいっぱいになり、エグゼキュータが勝手に終了してしまう。

質問私のApache Sparkクラスタは、多くのエグゼキュータタイムアウトを与えるアプリケーションを実行しています。 10:23:30,761 ERROR ~ Lost executor 5 on slave2.cluster: Executor heartbeat timed out after 177005 ms 10:23:30,806 ERROR ~ Lost executor

2022-02-24 11:28:11
[解決済み] Spark が "java.net.URISyntaxException" を報告するのはなぜですか？DataFrameを使用する際に「java.net.URIStyntaxException: Relative path in absolute URI」と表示されるのはなぜですか？

質問 WindowsマシンでSparkをローカルに動かしています。スパークシェルを正常に起動することができ、テキストファイルをRDDとして読み込むこともできました。また、このテーマに関するさまざまなオンラインチュートリアルに沿って、RDDに対してさまざまな操作を実行することができました。しかし、RDDをDataFrameに変換しようとすると、エラーが発生します。これは私がやっていること

2022-02-12 22:55:53
[解決済み] sparkでsaveAsTextFileするときのファイル名の付け方は？

質問 sparkバージョン1.5.1でテキストファイルとして保存する際に、以下のように使っています。 rdd.saveAsTextFile('<drectory>') . しかし、そのディレクトリにあるファイルを見つけたい場合、どのように好きな名前をつければいいのでしょうか？現在、この名前は part-00000 というのは、何らかのデフォルトでなければなりま

2022-02-11 15:42:25
[解決済み] spark 2.4.4 をインストールした後に pyspark を実行しようとすると、「TypeError: an integer is required (got type bytes)」というエラーが発生するのを修正する方法

質問 OpenJDK 13.0.1とpython 3.8とspark 2.4.4がインストールされました。インストールをテストするための指示は、sparkインストールのルートから. \pysparkを実行することです。私は、いくつかの環境変数を設定するような、sparkのインストールでステップを見逃したかどうかはわからないが、私はさらに詳細な指示を見つけることができない。私のマシン

2022-02-11 10:43:02
[解決済み] format("kafka") で "Failed to find data source: kafka." とエラーになるのはなぜですか？(uber-jarを使用しても)失敗しますか？

質問内容 HDP-2.6.3.0とSpark2パッケージ2.2.0を使用しています。 Structured Streaming APIを使用してKafkaコンシューマを作成しようとしていますが、クラスターにジョブを送信した後、次のエラーが発生します。 Exception in thread "main" java.lang.ClassNotFoundException: Failed

2022-02-10 15:24:32
[解決済み] Spark: 2つのDataFrameを減算する

質問 Sparkバージョンでは 1.2.0 を使用することができます。 subtract と2 SchemRDD のように、最初のコンテンツと異なるコンテンツだけが残るようにします。 val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD) onlyNewData の行が含まれます。 todaySchem

2022-02-10 04:05:13
[解決済み] Apache SparkとAkkaの比較【終了しました

質問閉店 . この質問はオピニオンベース . 現在、回答は受け付けておりません。 <パスこの質問を改善したいですか？質問を更新して、事実と引用で答えられるようにする。この投稿を編集する .

2022-02-09 15:16:21
[解決済み] Spark コンテキスト 'sc' が定義されていない

質問 Sparkの初心者ですが、以下のサイトを参考にPySparkをインストールしようとしています。 http://ramhiser.com/2015/02/01/configuring-ipython-notebook-support-for-pyspark/ ビルド済みのパッケージと、SBTを使用してSparkパッケージをビルドしてインストールしようとしました。 IPyt

2022-02-06 07:39:52
[解決済み] スパーク "プランの文字列表現が大きすぎたため、切り捨てました。" 手動で作成した集計式を使用した場合の警告

質問私は、各ユーザーについて、1日1時間あたりの平均レコード数を含むベクトルを作成しようとしています。したがって、ベクトルは24次元である必要があります。私のオリジナルのDataFrameは userID と hour カラムを作成することから始めています。 groupBy で、1時間あたりの1ユーザーあたりのレコード数を次のようにカウントしています。 val hourF

2022-02-05 18:10:18
[解決済み] PySparkのデータフレームで、各キーのパーセンタイルはどのように計算されますか？

質問内容 x、y、zの3列からなるPySparkのデータフレームを持っています。 X はこのデータフレーム内で複数行を持つ可能性があります。x の各キーのパーセンタイルを個別に計算するにはどうすればよいですか? +------+---------+------+ | Name| Role|Salary| +------+---------+------+ | bob|De

2022-02-05 07:31:02
[解決済み] spark.sql.autoBroadcastJoinThresholdは、Datasetの結合演算子を使用して結合するために動作しますか？

質問知りたいのは spark.sql.autoBroadcastJoinThreshold プロパティは、結合スキームがSpark SQLの代わりにDataset API結合を使用している場合でも、すべてのワーカーノードで（結合中に）小さいテーブルをブロードキャストするのに便利です。大きい方のテーブルが250ギガ、小さい方のテーブルが20ギガの場合、この設定は必要でしょうか？ s

2022-02-03 19:25:06

最新

おすすめ