-
Sparkのバージョンを確認する方法
質問内容 とあるように、CentOSにインストールされているsparkのバージョンを知るにはどうしたらいいのでしょうか? 現在のシステムにはcdh5.1.0がインストールされています。 どのように解決するのですか? Spark-Shellを使用する場合、冒頭のバナーに表示されます。 プログラム的に SparkContext.version を使うことができます。
2023-10-19 19:49:01 -
ワーカー、ワーカーインスタンス、エグゼキューターの関係は?
質問 で Sparkスタンドアロンモード では、マスターノードとワーカーノードが存在します。 以下はいくつかの質問です。 2ワーカーインスタンスとは、1ワーカーノードで2ワーカープロセスという意味でしょうか? ワーカーインスタンスごとに特定のアプリケーションのエグゼキュータ(ストレージやタスクを管理する)を保持するのでしょうか、それとも1つのワーカーノードが1つのエグゼキ
2023-08-04 10:16:50 -
[解決済み] PySparkのデータフレームで各列のNullとNanの値の数を効率的に見つけるにはどうしたらいいですか?
質問 import numpy as np data = [ (1, 1, None), (1, 2, float(5)), (1, 3, np.nan), (1, 4, None), (1, 5, float(10)), (1, 6, float("nan")), (1, 6, float("nan")), ] df =
2023-07-13 22:22:08 -
[解決済み] Sparkにはどのようなクラスタタイプを選べばよいですか?
質問 私はApache Sparkの初心者ですが、Sparkは3種類のクラスタをサポートしていることを知りました。 スタンドアロン - Spark が自分自身のクラスターを管理することを意味します。 YARN - HadoopのYARNリソース・マネージャーを使用します。 Mesos - Apache の専用リソース・マネージャ・プロジェクト 私は スタンドアロン
2023-07-07 14:17:37 -
[解決済み] PySparkで現在のsparkコンテキストの設定を取得することは可能ですか?
質問 へのパスを取得しようとしています。 spark.worker.dir へのパスを取得しようとしています。 sparkcontext . として明示的に設定すると config param に設定すれば、それを SparkConf にアクセスする方法はありますか? config (すべてのデフォルトを含む) にアクセスする方法はありますか? PySpark ? どのように
2023-07-07 04:46:23 -
[解決済み] reduceByKeyとgroupByKeyとaggregateByKeyとcombineByKeyの違いのスパーク
質問 の違いを説明できる人はいますか? reducebykey , groupbykey , aggregatebykey と combinebykey ? これに関するドキュメントを読みましたが、正確な違いを理解することができませんでした。 例を挙げての説明があると助かります。 どのように解決するのですか? groupByKeyです。 構文です。 sparkC
2023-05-29 21:35:25 -
[解決済み] RDD/Spark DataFrameの特定の列に基づく行からの重複の除去
質問 例えば、次のような形式のかなり大きなデータセットがあるとします。 data = sc.parallelize([('Foo',41,'US',3), ('Foo',39,'UK',1), ('Bar',57,'CA',2), ('Bar',72,'
2023-05-17 18:47:53 -
[解決済み] Spark SQL: カラムのリストに集約関数を適用する
質問 データフレームのすべての列(またはリスト)に対して、集約関数を適用する方法はありますか? groupBy ? 言い換えれば、すべての列に対してこれを行うことを回避する方法はありますか。 df.groupBy("col1") .agg(sum("col2").alias("col2"), sum("col3").alias("col3"), ...) どのように解決するのです
2023-03-19 23:36:29 -
[解決済み] spark dataframeの書き込みメソッドで特定のパーティションを上書きする
質問 spark ですべてではなく、特定のパーティションを上書きしたいのです。以下のコマンドを試しています。 df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4') ここで、dfは上書きされるインクリメンタルデータを持つデータフレームです。 hdfs-base-pathにはマスターデータが格納
2023-02-27 22:14:34 -
[解決済み] Apache BeamがSpark/Flinkよりもバッチ処理に優れている点は何ですか?
質問 Apache Beam は、Apache SparkやFlinkを含む複数のランナーバックエンドをサポートしています。私はSpark/Flinkに精通しており、バッチ処理のためのBeamの長所/短所を見ようとしています。 を見てみると Beamの単語数の例 を見ると、ネイティブのSpark/Flinkの同等品と非常に似ているように感じますが、おそらくもう少し冗長な構文に
2023-02-03 23:51:39 -
[解決済み] sparkのexecutor数、cores、executor memoryのチューニング方法は?
質問 上記のパラメータをチューニングするには、どこから始めればよいのでしょうか。実行者メモリから始めて実行者数を得るのでしょうか、それともコアから始めて実行者数を得るのでしょうか。私は リンク . しかし、高レベルのアイデアを得たが、まだどのように、またはどこから始め、最終的な結論に到達するかがわからない。 どのように解決するのですか? 以下の回答は、タイトルにある3つの主要な
2022-12-06 04:50:45 -
[解決済み] Apache SparkのWeb UIにおける「Stage Skipped」の意味とは?
質問 SparkのUIから。スキップされたとはどういう意味ですか? どのように解決するのですか? 一般的には、データがキャッシュから取得され、指定されたステージを再実行する必要がないことを意味します。これは、次のステージでシャッフルを必要とすることを示すあなたの DAG と一貫しています ( reduceByKey ). シャッフリングが行われる場合は常にSpark
2022-11-22 03:18:26 -
[解決済み] Sparkジョブがorg.apache.spark.shuffle.MetadataFetchFailedExceptionで失敗する理由は何ですか?Shuffle 0 の投機モードでの出力場所がない?
質問 Sparkのジョブを投機モードで実行しています。約500のタスクと、1 GB gzの圧縮された約500のファイルを持っています。私は各ジョブで、1-2タスクについて、添付のエラーが発生し続け、その後何十回も再実行されます(ジョブが完了するのを妨げます)。 org.apache.spark.shuffle.MetadataFetchFailedException: shuffle
2022-11-19 16:36:35 -
[解決済み] sparkで出力ディレクトリを上書きする方法
質問 1分ごとにデータセットを生成するSparkストリーミングアプリケーションを持っています。 処理したデータの結果を保存/上書きする必要があります。 データセットを上書きしようとすると org.apache.hadoop.mapred.FileAlreadyExistsException で実行が止まってしまいます。 Sparkのプロパティである set("spark.files
2022-07-19 09:41:49 -
[解決済み] 複数のテキストファイルを1つのRDDに読み込むには?
質問 hdfsから大量のテキストファイルを読み込んで、sparkを使ってイテレーションでマッピングを行いたいのですが、どうすればいいですか? JavaRDD<String> records = ctx.textFile(args[1], 1); は、一度に1つのファイルしか読み込むことができません。 複数のファイルを読み込んで、1つのRDDとして処理したいのですが。どの
2022-04-15 17:12:49 -
[解決済み】Spark StandaloneクラスタのWorker、Executor、Coreとは何ですか?
質問 読む クラスター・モードの概要 の処理の違いについて、まだ理解できていません。 Sparkスタンドアロンクラスタ と並列化されています。 WorkerはJVMプロセスなのかどうか?を実行しました。 bin\start-slave.sh を実行すると、Workerがスポーンされることがわかりましたが、これは実際にはJVMです。 上記のリンクにあるように、エグゼキュ
2022-04-15 09:02:06 -
[解決済み】SparkコンソールにINFOメッセージを表示させないようにするには?
質問 スパークシェルで出てくる様々なメッセージを止めたい。 を編集してみました。 log4j.properties というメッセージが表示されます。 以下は log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console log4j.appender.co
2022-04-10 10:24:10 -
[解決済み】Spark Dataframeで列の内容をすべて表示するにはどうすればよいですか?
質問 spark-csvを使用してDataFrameにデータをロードしています。簡単なクエリを実行し、コンテンツを表示したい。 val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") re
2022-04-03 19:15:19 -
[解決済み】mapとflatMapの違いと、それぞれの良い使用例について教えてください。
質問 mapとflatMapの違いと、それぞれの良い使用例について、どなたか教えてください。 結果を平坦にする」とはどういう意味ですか? また、どのような場合に有効なのでしょうか? どのように解決するのですか? 以下は、その違いの例です。 spark-shell セッションになります。 まず、いくつかのデータ、つまり2行のテキストです。 val rdd = sc.para
2022-03-31 19:59:13 -
[解決済み] Spark - repartition() vs coalesce()
質問 ラーニングスパークによる データの再分割はかなり高価な操作であることに留意してください。 また、Sparkには、最適化されたバージョンの repartition() という coalesce() を使用すると、データ移動を回避することができますが、RDDパーティションの数を減らす場合のみです。 私が得た1つの違いは repartition() パーティション
2022-03-15 19:33:56
最新
-
LinuxでインターフェースのIPアドレスを取得する
-
WPFでリソースであるアイコンを使用するにはどうすればよいですか?
-
Laravel 6.0での「未定義関数str_slug()の呼び出し」について
-
WildFlyのヒープメモリを増やすには?
-
MessageBox.Showダイアログの「はい」「いいえ」ボタンのテキストを変更するには?
-
FlutterでキーボードのText Input Action Button(return/enterキー)を変更するには?
-
同一線上にある2つのdivブロック
-
ナビゲーションバーの右側に複数のUIBarButtonItemを追加するには?
-
絶対配置を使用することはバッドプラクティスとみなされますか?[クローズド]
-
リアクト転写小道具(1個を除く
おすすめ
-
Eclipse で Maven プロジェクトを作成すると、「Could not resolve archetype」というクレームが発生する [重複] 。
-
ドロップダウンリストのselecteditemをプログラムで設定する
-
切り上げ/切り下げ 瞬間を分単位で表す
-
kubernetesを完全にアンインストールする方法
-
Laravelが更新後に「The bootstrap/cache directory must be present and writable」エラーを投げる。
-
LinearLayoutに子要素がある場合、onClickがトリガーされない
-
アンドロイド マシュマロ。Espressoでパーミッションのテスト?
-
車輪の再発明をせずにREST APIを保護する
-
Jenkinsパイプラインで失敗したステージのリトライオプションを実装するには?
-
がチェックアウトされていない...バンドルインストールしても直らない!