-
[解決済み] プロパティspark.yarn.jars - どのようにそれに対処するのですか?
質問内容 私のSparkに関する知識は限られており、この質問を読めばそれが分かると思います。私は1つのノードを持っており、spark、hadoop、yarnはその上にインストールされています。 私は以下のコマンドで、クラスタモードでワードカウントの問題をコーディングし、実行することができました。 spark-submit --class com.sanjeevd.sparksimpl
2022-03-15 17:02:47 -
[解決済み] TypeError: 'Column' オブジェクトは WithColumn を使用して呼び出すことができません。
質問 データフレーム(df)に新しいカラムを追加したいのですが、関数 get_distance : def get_distance(x, y): dfDistPerc = hiveContext.sql("select column3 as column3, \ from tab \
2022-03-07 04:36:13 -
[解決済み] spark checkpointとpersist to a diskの違いは何ですか?
質問 spark checkpointとpersist to a diskの違いは何ですか? どちらもローカルディスクに保存されるのでしょうか? どのように解決するのですか? いくつかの重要な違いがありますが、根本的な違いは、リネージがどうなるかということです。 Persist / cache は、系統を維持したまま checkpoint は系統を断ち切ります。次のような例
2022-03-05 03:53:49 -
[解決済み] ShuffledRDD、MapPartitionsRDD、ParallelCollectionRDDの違いは何ですか?
質問 Spark RDDを生成するために2つの異なる方法を使用しています。そして、Spark UI DAGチャートの結果はかなり異なっています。 どなたか違いを教えてください。私の仕事では、同じような操作で1番目の方が2番目の方より速いのです。 どのように解決するのですか? 1ステージのDAGでは、単にコレクションでRDDを作成し、2番目のRDDでは、pa
2022-03-04 18:27:39 -
[解決済み] 実行中のSparkアプリケーションを終了させるには?
質問 Sparkアプリケーションを実行していますが、他のアプリケーションにリソースが割り当てられないように、すべてのコアを占有しています。 私はいくつかのクイックリサーチを行い、人々はYARN killまたは/bin/spark-classを使用してコマンドを終了させることを提案しました。しかし、私はCDHバージョンを使用しており、/bin/spark-classはまったく存在せず、YA
2022-03-03 14:34:56 -
[解決済み] spark.yarn.executor.memoryOverhead "の設定値?
質問 の値は? spark.yarn.executor.memoryOverhead YARNを使用したSparkジョブでは、Appに割り当てるべきでしょうか、それとも最大値だけでしょうか? 解決方法を教えてください。 spark.yarn.executor.memoryOverhead 目標は、RDDやDataFrameで使用される、実際の実行メモリに対するOVERHEADの
2022-03-03 03:26:28 -
[解決済み] スパークジョブとは?
質問 すでにsparkのインストールを終え、マスターノードとワーカーノードを設定していくつかのテストケースを実行しました。とはいえ、Sparkのコンテキスト(SparkContextではない)でジョブとは一体何を意味するのか、非常に太い混乱があります。私は以下の質問を持っています。 ジョブとドライバプログラムはどう違うのですか? アプリケーション自体もドライバプログラムの一部ですか
2022-03-02 01:12:17 -
[解決済み] Sparkのバージョンを確認する方法【終了しました
質問 閉店しました。 この質問には デバッギング詳細 . 現在、回答は受け付けておりません。 <パス この質問を改善したいですか? 質問を更新して、それが オントピック Stack Overflow用です。
2022-02-25 04:17:52 -
[解決済み] pyspark : NameError: name 'spark' is not defined.
質問 公式ドキュメントサイトにあるpyspark.mlのサンプルをコピーしています。 http://spark.apache.org/docs/latest/api/python/pyspark.ml.html#pyspark.ml.Transformer data = [(Vectors.dense([0.0, 0.0]),), (Vectors.dense([1.0, 1.0])
2022-02-24 18:05:47 -
[解決済み] Sparkクラスタがハートビートのタイムアウトでいっぱいになり、エグゼキュータが勝手に終了してしまう。
質問 私のApache Sparkクラスタは、多くのエグゼキュータタイムアウトを与えるアプリケーションを実行しています。 10:23:30,761 ERROR ~ Lost executor 5 on slave2.cluster: Executor heartbeat timed out after 177005 ms 10:23:30,806 ERROR ~ Lost executor
2022-02-24 11:28:11 -
[解決済み] Spark が "java.net.URISyntaxException" を報告するのはなぜですか?DataFrameを使用する際に「java.net.URIStyntaxException: Relative path in absolute URI」と表示されるのはなぜですか?
質問 WindowsマシンでSparkをローカルに動かしています。スパークシェルを正常に起動することができ、テキストファイルをRDDとして読み込むこともできました。また、このテーマに関するさまざまなオンラインチュートリアルに沿って、RDDに対してさまざまな操作を実行することができました。 しかし、RDDをDataFrameに変換しようとすると、エラーが発生します。これは私がやっていること
2022-02-12 22:55:53 -
[解決済み] sparkでsaveAsTextFileするときのファイル名の付け方は?
質問 sparkバージョン1.5.1でテキストファイルとして保存する際に、以下のように使っています。 rdd.saveAsTextFile('<drectory>') . しかし、そのディレクトリにあるファイルを見つけたい場合、どのように好きな名前をつければいいのでしょうか? 現在、この名前は part-00000 というのは、何らかのデフォルトでなければなりま
2022-02-11 15:42:25 -
[解決済み] spark 2.4.4 をインストールした後に pyspark を実行しようとすると、「TypeError: an integer is required (got type bytes)」というエラーが発生するのを修正する方法
質問 OpenJDK 13.0.1とpython 3.8とspark 2.4.4がインストールされました。 インストールをテストするための指示は、sparkインストールのルートから. \pysparkを実行することです。 私は、いくつかの環境変数を設定するような、sparkのインストールでステップを見逃したかどうかはわからないが、私はさらに詳細な指示を見つけることができない。 私のマシン
2022-02-11 10:43:02 -
[解決済み] format("kafka") で "Failed to find data source: kafka." とエラーになるのはなぜですか?(uber-jarを使用しても)失敗しますか?
質問内容 HDP-2.6.3.0とSpark2パッケージ2.2.0を使用しています。 Structured Streaming APIを使用してKafkaコンシューマを作成しようとしていますが、クラスターにジョブを送信した後、次のエラーが発生します。 Exception in thread "main" java.lang.ClassNotFoundException: Failed
2022-02-10 15:24:32 -
[解決済み] Spark: 2つのDataFrameを減算する
質問 Sparkバージョンでは 1.2.0 を使用することができます。 subtract と2 SchemRDD のように、最初のコンテンツと異なるコンテンツだけが残るようにします。 val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD) onlyNewData の行が含まれます。 todaySchem
2022-02-10 04:05:13 -
[解決済み] Apache SparkとAkkaの比較【終了しました
質問 閉店 . この質問は オピニオンベース . 現在、回答は受け付けておりません。 <パス この質問を改善したいですか? 質問を更新して、事実と引用で答えられるようにする。 この投稿を編集する .
2022-02-09 15:16:21 -
[解決済み] Spark コンテキスト 'sc' が定義されていない
質問 Sparkの初心者ですが、以下のサイトを参考にPySparkをインストールしようとしています。 http://ramhiser.com/2015/02/01/configuring-ipython-notebook-support-for-pyspark/ ビルド済みのパッケージと、SBTを使用してSparkパッケージをビルドしてインストールしようとしました。 IPyt
2022-02-06 07:39:52 -
[解決済み] スパーク "プランの文字列表現が大きすぎたため、切り捨てました。" 手動で作成した集計式を使用した場合の警告
質問 私は、各ユーザーについて、1日1時間あたりの平均レコード数を含むベクトルを作成しようとしています。したがって、ベクトルは24次元である必要があります。 私のオリジナルのDataFrameは userID と hour カラムを作成することから始めています。 groupBy で、1時間あたりの1ユーザーあたりのレコード数を次のようにカウントしています。 val hourF
2022-02-05 18:10:18 -
[解決済み] PySparkのデータフレームで、各キーのパーセンタイルはどのように計算されますか?
質問内容 x、y、zの3列からなるPySparkのデータフレームを持っています。 X はこのデータフレーム内で複数行を持つ可能性があります。x の各キーのパーセンタイルを個別に計算するにはどうすればよいですか? +------+---------+------+ | Name| Role|Salary| +------+---------+------+ | bob|De
2022-02-05 07:31:02 -
[解決済み] spark.sql.autoBroadcastJoinThresholdは、Datasetの結合演算子を使用して結合するために動作しますか?
質問 知りたいのは spark.sql.autoBroadcastJoinThreshold プロパティは、結合スキームがSpark SQLの代わりにDataset API結合を使用している場合でも、すべてのワーカーノードで(結合中に)小さいテーブルをブロードキャストするのに便利です。 大きい方のテーブルが250ギガ、小さい方のテーブルが20ギガの場合、この設定は必要でしょうか? s
2022-02-03 19:25:06
最新
-
LinuxでインターフェースのIPアドレスを取得する
-
WPFでリソースであるアイコンを使用するにはどうすればよいですか?
-
Laravel 6.0での「未定義関数str_slug()の呼び出し」について
-
WildFlyのヒープメモリを増やすには?
-
MessageBox.Showダイアログの「はい」「いいえ」ボタンのテキストを変更するには?
-
FlutterでキーボードのText Input Action Button(return/enterキー)を変更するには?
-
同一線上にある2つのdivブロック
-
ナビゲーションバーの右側に複数のUIBarButtonItemを追加するには?
-
絶対配置を使用することはバッドプラクティスとみなされますか?[クローズド]
-
リアクト転写小道具(1個を除く
おすすめ
-
Eclipse で Maven プロジェクトを作成すると、「Could not resolve archetype」というクレームが発生する [重複] 。
-
ドロップダウンリストのselecteditemをプログラムで設定する
-
切り上げ/切り下げ 瞬間を分単位で表す
-
kubernetesを完全にアンインストールする方法
-
Laravelが更新後に「The bootstrap/cache directory must be present and writable」エラーを投げる。
-
LinearLayoutに子要素がある場合、onClickがトリガーされない
-
アンドロイド マシュマロ。Espressoでパーミッションのテスト?
-
車輪の再発明をせずにREST APIを保護する
-
Jenkinsパイプラインで失敗したステージのリトライオプションを実装するには?
-
がチェックアウトされていない...バンドルインストールしても直らない!