apache-spark - BinaryDevelop

Sparkのバージョンを確認する方法

質問内容とあるように、CentOSにインストールされているsparkのバージョンを知るにはどうしたらいいのでしょうか？現在のシステムにはcdh5.1.0がインストールされています。どのように解決するのですか？ Spark-Shellを使用する場合、冒頭のバナーに表示されます。プログラム的に SparkContext.version を使うことができます。

2023-10-19 19:49:01
ワーカー、ワーカーインスタンス、エグゼキューターの関係は？

質問で Sparkスタンドアロンモードでは、マスターノードとワーカーノードが存在します。以下はいくつかの質問です。 2ワーカーインスタンスとは、1ワーカーノードで2ワーカープロセスという意味でしょうか？ワーカーインスタンスごとに特定のアプリケーションのエグゼキュータ（ストレージやタスクを管理する）を保持するのでしょうか、それとも1つのワーカーノードが1つのエグゼキ

2023-08-04 10:16:50
[解決済み] PySparkのデータフレームで各列のNullとNanの値の数を効率的に見つけるにはどうしたらいいですか？

質問 import numpy as np data = [ (1, 1, None), (1, 2, float(5)), (1, 3, np.nan), (1, 4, None), (1, 5, float(10)), (1, 6, float("nan")), (1, 6, float("nan")), ] df =

2023-07-13 22:22:08
[解決済み] Sparkにはどのようなクラスタタイプを選べばよいですか？

質問私はApache Sparkの初心者ですが、Sparkは3種類のクラスタをサポートしていることを知りました。スタンドアロン - Spark が自分自身のクラスターを管理することを意味します。 YARN - HadoopのYARNリソース・マネージャーを使用します。 Mesos - Apache の専用リソース・マネージャ・プロジェクト私はスタンドアロン

2023-07-07 14:17:37
[解決済み] PySparkで現在のsparkコンテキストの設定を取得することは可能ですか？

質問へのパスを取得しようとしています。 spark.worker.dir へのパスを取得しようとしています。 sparkcontext . として明示的に設定すると config param に設定すれば、それを SparkConf にアクセスする方法はありますか？ config (すべてのデフォルトを含む) にアクセスする方法はありますか？ PySpark ? どのように

2023-07-07 04:46:23
[解決済み] reduceByKeyとgroupByKeyとaggregateByKeyとcombineByKeyの違いのスパーク

質問の違いを説明できる人はいますか？ reducebykey , groupbykey , aggregatebykey と combinebykey ? これに関するドキュメントを読みましたが、正確な違いを理解することができませんでした。例を挙げての説明があると助かります。どのように解決するのですか？ groupByKeyです。構文です。 sparkC

2023-05-29 21:35:25
[解決済み] RDD/Spark DataFrameの特定の列に基づく行からの重複の除去

質問例えば、次のような形式のかなり大きなデータセットがあるとします。 data = sc.parallelize([('Foo',41,'US',3), ('Foo',39,'UK',1), ('Bar',57,'CA',2), ('Bar',72,'

2023-05-17 18:47:53
[解決済み] Spark SQL: カラムのリストに集約関数を適用する

質問データフレームのすべての列（またはリスト）に対して、集約関数を適用する方法はありますか？ groupBy ? 言い換えれば、すべての列に対してこれを行うことを回避する方法はありますか。 df.groupBy("col1") .agg(sum("col2").alias("col2"), sum("col3").alias("col3"), ...) どのように解決するのです

2023-03-19 23:36:29
[解決済み] spark dataframeの書き込みメソッドで特定のパーティションを上書きする

質問 spark ですべてではなく、特定のパーティションを上書きしたいのです。以下のコマンドを試しています。 df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4') ここで、dfは上書きされるインクリメンタルデータを持つデータフレームです。 hdfs-base-pathにはマスターデータが格納

2023-02-27 22:14:34
[解決済み] Apache BeamがSpark/Flinkよりもバッチ処理に優れている点は何ですか？

質問 Apache Beam は、Apache SparkやFlinkを含む複数のランナーバックエンドをサポートしています。私はSpark/Flinkに精通しており、バッチ処理のためのBeamの長所/短所を見ようとしています。を見てみると Beamの単語数の例を見ると、ネイティブのSpark/Flinkの同等品と非常に似ているように感じますが、おそらくもう少し冗長な構文に

2023-02-03 23:51:39
[解決済み] sparkのexecutor数、cores、executor memoryのチューニング方法は？

質問上記のパラメータをチューニングするには、どこから始めればよいのでしょうか。実行者メモリから始めて実行者数を得るのでしょうか、それともコアから始めて実行者数を得るのでしょうか。私はリンク . しかし、高レベルのアイデアを得たが、まだどのように、またはどこから始め、最終的な結論に到達するかがわからない。どのように解決するのですか？以下の回答は、タイトルにある3つの主要な

2022-12-06 04:50:45
[解決済み] Apache SparkのWeb UIにおける「Stage Skipped」の意味とは？

質問 SparkのUIから。スキップされたとはどういう意味ですか？どのように解決するのですか？一般的には、データがキャッシュから取得され、指定されたステージを再実行する必要がないことを意味します。これは、次のステージでシャッフルを必要とすることを示すあなたの DAG と一貫しています ( reduceByKey ). シャッフリングが行われる場合は常にSpark

2022-11-22 03:18:26
[解決済み] Sparkジョブがorg.apache.spark.shuffle.MetadataFetchFailedExceptionで失敗する理由は何ですか？Shuffle 0 の投機モードでの出力場所がない？

質問 Sparkのジョブを投機モードで実行しています。約500のタスクと、1 GB gzの圧縮された約500のファイルを持っています。私は各ジョブで、1-2タスクについて、添付のエラーが発生し続け、その後何十回も再実行されます（ジョブが完了するのを妨げます）。 org.apache.spark.shuffle.MetadataFetchFailedException: shuffle

2022-11-19 16:36:35
[解決済み] sparkで出力ディレクトリを上書きする方法

質問 1分ごとにデータセットを生成するSparkストリーミングアプリケーションを持っています。処理したデータの結果を保存/上書きする必要があります。データセットを上書きしようとすると org.apache.hadoop.mapred.FileAlreadyExistsException で実行が止まってしまいます。 Sparkのプロパティである set("spark.files

2022-07-19 09:41:49
[解決済み] 複数のテキストファイルを1つのRDDに読み込むには？

質問 hdfsから大量のテキストファイルを読み込んで、sparkを使ってイテレーションでマッピングを行いたいのですが、どうすればいいですか？ JavaRDD<String> records = ctx.textFile(args[1], 1); は、一度に1つのファイルしか読み込むことができません。複数のファイルを読み込んで、1つのRDDとして処理したいのですが。どの

2022-04-15 17:12:49
[解決済み】Spark StandaloneクラスタのWorker、Executor、Coreとは何ですか？

質問読むクラスター・モードの概要の処理の違いについて、まだ理解できていません。 Sparkスタンドアロンクラスタと並列化されています。 WorkerはJVMプロセスなのかどうか？を実行しました。 bin\start-slave.sh を実行すると、Workerがスポーンされることがわかりましたが、これは実際にはJVMです。上記のリンクにあるように、エグゼキュ

2022-04-15 09:02:06
[解決済み】SparkコンソールにINFOメッセージを表示させないようにするには？

質問スパークシェルで出てくる様々なメッセージを止めたい。を編集してみました。 log4j.properties というメッセージが表示されます。以下は log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console log4j.appender.co

2022-04-10 10:24:10
[解決済み】Spark Dataframeで列の内容をすべて表示するにはどうすればよいですか？

質問 spark-csvを使用してDataFrameにデータをロードしています。簡単なクエリを実行し、コンテンツを表示したい。 val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") re

2022-04-03 19:15:19
[解決済み】mapとflatMapの違いと、それぞれの良い使用例について教えてください。

質問 mapとflatMapの違いと、それぞれの良い使用例について、どなたか教えてください。結果を平坦にする」とはどういう意味ですか？また、どのような場合に有効なのでしょうか？どのように解決するのですか？以下は、その違いの例です。 spark-shell セッションになります。まず、いくつかのデータ、つまり2行のテキストです。 val rdd = sc.para

2022-03-31 19:59:13
[解決済み] Spark - repartition() vs coalesce()

質問ラーニングスパークによるデータの再分割はかなり高価な操作であることに留意してください。また、Sparkには、最適化されたバージョンの repartition() という coalesce() を使用すると、データ移動を回避することができますが、RDDパーティションの数を減らす場合のみです。私が得た1つの違いは repartition() パーティション

2022-03-15 19:33:56

最新

おすすめ