• Sparkのバージョンを確認する方法

    質問内容 とあるように、CentOSにインストールされているsparkのバージョンを知るにはどうしたらいいのでしょうか? 現在のシステムにはcdh5.1.0がインストールされています。 どのように解決するのですか? Spark-Shellを使用する場合、冒頭のバナーに表示されます。 プログラム的に SparkContext.version を使うことができます。

    2023-10-19 19:49:01
  • ワーカー、ワーカーインスタンス、エグゼキューターの関係は?

    質問 で Sparkスタンドアロンモード では、マスターノードとワーカーノードが存在します。 以下はいくつかの質問です。 2ワーカーインスタンスとは、1ワーカーノードで2ワーカープロセスという意味でしょうか? ワーカーインスタンスごとに特定のアプリケーションのエグゼキュータ(ストレージやタスクを管理する)を保持するのでしょうか、それとも1つのワーカーノードが1つのエグゼキ

    2023-08-04 10:16:50
  • [解決済み] PySparkのデータフレームで各列のNullとNanの値の数を効率的に見つけるにはどうしたらいいですか?

    質問 import numpy as np data = [ (1, 1, None), (1, 2, float(5)), (1, 3, np.nan), (1, 4, None), (1, 5, float(10)), (1, 6, float("nan")), (1, 6, float("nan")), ] df =

    2023-07-13 22:22:08
  • [解決済み] Sparkにはどのようなクラスタタイプを選べばよいですか?

    質問 私はApache Sparkの初心者ですが、Sparkは3種類のクラスタをサポートしていることを知りました。 スタンドアロン - Spark が自分自身のクラスターを管理することを意味します。 YARN - HadoopのYARNリソース・マネージャーを使用します。 Mesos - Apache の専用リソース・マネージャ・プロジェクト 私は スタンドアロン

    2023-07-07 14:17:37
  • [解決済み] PySparkで現在のsparkコンテキストの設定を取得することは可能ですか?

    質問 へのパスを取得しようとしています。 spark.worker.dir へのパスを取得しようとしています。 sparkcontext . として明示的に設定すると config param に設定すれば、それを SparkConf にアクセスする方法はありますか? config (すべてのデフォルトを含む) にアクセスする方法はありますか? PySpark ? どのように

    2023-07-07 04:46:23
  • [解決済み] reduceByKeyとgroupByKeyとaggregateByKeyとcombineByKeyの違いのスパーク

    質問 の違いを説明できる人はいますか? reducebykey , groupbykey , aggregatebykey と combinebykey ? これに関するドキュメントを読みましたが、正確な違いを理解することができませんでした。 例を挙げての説明があると助かります。 どのように解決するのですか? groupByKeyです。 構文です。 sparkC

    2023-05-29 21:35:25
  • [解決済み] RDD/Spark DataFrameの特定の列に基づく行からの重複の除去

    質問 例えば、次のような形式のかなり大きなデータセットがあるとします。 data = sc.parallelize([('Foo',41,'US',3), ('Foo',39,'UK',1), ('Bar',57,'CA',2), ('Bar',72,'

    2023-05-17 18:47:53
  • [解決済み] Spark SQL: カラムのリストに集約関数を適用する

    質問 データフレームのすべての列(またはリスト)に対して、集約関数を適用する方法はありますか? groupBy ? 言い換えれば、すべての列に対してこれを行うことを回避する方法はありますか。 df.groupBy("col1") .agg(sum("col2").alias("col2"), sum("col3").alias("col3"), ...) どのように解決するのです

    2023-03-19 23:36:29
  • [解決済み] spark dataframeの書き込みメソッドで特定のパーティションを上書きする

    質問 spark ですべてではなく、特定のパーティションを上書きしたいのです。以下のコマンドを試しています。 df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4') ここで、dfは上書きされるインクリメンタルデータを持つデータフレームです。 hdfs-base-pathにはマスターデータが格納

    2023-02-27 22:14:34
  • [解決済み] Apache BeamがSpark/Flinkよりもバッチ処理に優れている点は何ですか?

    質問 Apache Beam は、Apache SparkやFlinkを含む複数のランナーバックエンドをサポートしています。私はSpark/Flinkに精通しており、バッチ処理のためのBeamの長所/短所を見ようとしています。 を見てみると Beamの単語数の例 を見ると、ネイティブのSpark/Flinkの同等品と非常に似ているように感じますが、おそらくもう少し冗長な構文に

    2023-02-03 23:51:39
  • [解決済み] sparkのexecutor数、cores、executor memoryのチューニング方法は?

    質問 上記のパラメータをチューニングするには、どこから始めればよいのでしょうか。実行者メモリから始めて実行者数を得るのでしょうか、それともコアから始めて実行者数を得るのでしょうか。私は リンク . しかし、高レベルのアイデアを得たが、まだどのように、またはどこから始め、最終的な結論に到達するかがわからない。 どのように解決するのですか? 以下の回答は、タイトルにある3つの主要な

    2022-12-06 04:50:45
  • [解決済み] Apache SparkのWeb UIにおける「Stage Skipped」の意味とは?

    質問 SparkのUIから。スキップされたとはどういう意味ですか? どのように解決するのですか? 一般的には、データがキャッシュから取得され、指定されたステージを再実行する必要がないことを意味します。これは、次のステージでシャッフルを必要とすることを示すあなたの DAG と一貫しています ( reduceByKey ). シャッフリングが行われる場合は常にSpark

    2022-11-22 03:18:26
  • [解決済み] Sparkジョブがorg.apache.spark.shuffle.MetadataFetchFailedExceptionで失敗する理由は何ですか?Shuffle 0 の投機モードでの出力場所がない?

    質問 Sparkのジョブを投機モードで実行しています。約500のタスクと、1 GB gzの圧縮された約500のファイルを持っています。私は各ジョブで、1-2タスクについて、添付のエラーが発生し続け、その後何十回も再実行されます(ジョブが完了するのを妨げます)。 org.apache.spark.shuffle.MetadataFetchFailedException: shuffle

    2022-11-19 16:36:35
  • [解決済み] sparkで出力ディレクトリを上書きする方法

    質問 1分ごとにデータセットを生成するSparkストリーミングアプリケーションを持っています。 処理したデータの結果を保存/上書きする必要があります。 データセットを上書きしようとすると org.apache.hadoop.mapred.FileAlreadyExistsException で実行が止まってしまいます。 Sparkのプロパティである set("spark.files

    2022-07-19 09:41:49
  • [解決済み] 複数のテキストファイルを1つのRDDに読み込むには?

    質問 hdfsから大量のテキストファイルを読み込んで、sparkを使ってイテレーションでマッピングを行いたいのですが、どうすればいいですか? JavaRDD<String> records = ctx.textFile(args[1], 1); は、一度に1つのファイルしか読み込むことができません。 複数のファイルを読み込んで、1つのRDDとして処理したいのですが。どの

    2022-04-15 17:12:49
  • [解決済み】Spark StandaloneクラスタのWorker、Executor、Coreとは何ですか?

    質問 読む クラスター・モードの概要 の処理の違いについて、まだ理解できていません。 Sparkスタンドアロンクラスタ と並列化されています。 WorkerはJVMプロセスなのかどうか?を実行しました。 bin\start-slave.sh を実行すると、Workerがスポーンされることがわかりましたが、これは実際にはJVMです。 上記のリンクにあるように、エグゼキュ

    2022-04-15 09:02:06
  • [解決済み】SparkコンソールにINFOメッセージを表示させないようにするには?

    質問 スパークシェルで出てくる様々なメッセージを止めたい。 を編集してみました。 log4j.properties というメッセージが表示されます。 以下は log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console log4j.appender.co

    2022-04-10 10:24:10
  • [解決済み】Spark Dataframeで列の内容をすべて表示するにはどうすればよいですか?

    質問 spark-csvを使用してDataFrameにデータをロードしています。簡単なクエリを実行し、コンテンツを表示したい。 val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") re

    2022-04-03 19:15:19
  • [解決済み】mapとflatMapの違いと、それぞれの良い使用例について教えてください。

    質問 mapとflatMapの違いと、それぞれの良い使用例について、どなたか教えてください。 結果を平坦にする」とはどういう意味ですか? また、どのような場合に有効なのでしょうか? どのように解決するのですか? 以下は、その違いの例です。 spark-shell セッションになります。 まず、いくつかのデータ、つまり2行のテキストです。 val rdd = sc.para

    2022-03-31 19:59:13
  • [解決済み] Spark - repartition() vs coalesce()

    質問 ラーニングスパークによる データの再分割はかなり高価な操作であることに留意してください。 また、Sparkには、最適化されたバージョンの repartition() という coalesce() を使用すると、データ移動を回避することができますが、RDDパーティションの数を減らす場合のみです。 私が得た1つの違いは repartition() パーティション

    2022-03-15 19:33:56