[解決済み] スパークジョブとは？

2022-03-02 01:12:17

質問

すでにsparkのインストールを終え、マスターノードとワーカーノードを設定していくつかのテストケースを実行しました。とはいえ、Sparkのコンテキスト（SparkContextではない）でジョブとは一体何を意味するのか、非常に太い混乱があります。私は以下の質問を持っています。

ジョブとドライバプログラムはどう違うのですか？
アプリケーション自体もドライバプログラムの一部ですか？
Sparkのサブミットはある意味仕事？

を読みました。 Sparkのドキュメントしかし、このことはまだ私にとって明確ではありません。

とはいえ、私の実装では、spark job{programmatically}を書いて、それをspark-submitにすることにしています。

可能であれば、いくつかの例で親切に助けてください。それは非常に役立つだろう。

備考 : 私はすでにそれを試しているので、スパークリンクを投稿しないように注意してください。たとえ質問が素朴に聞こえるとしても、私は理解する上でより明確さが必要です。

どのように解決するのですか？

用語は文脈に依存するため、常に難しいものです。多くの場合、quot;submit a job to a cluster"で、sparkではdriver programをsubmitすることになるでしょう。

とはいえ、Sparkは用語集から直接、"job"の独自の定義を持っています。

<ブロッククオート

ジョブ複数のタスクで構成される並列計算。 Sparkのアクション（例：save、collect）に反応して起動します。この用語はドライバのログで使用される。

そこで、この文脈で、次のようなことをする必要があるとします。

人名と住所のファイルをRDD1に読み込む
人名と電話番号のファイルをRDD2にロードします。
RDD1とRDD2を名前で結合し、RDD3を得る
RDD3にマップして、各人のHTMLプレゼンテーションカードをRDD4として取得する
RDD4をファイルに保存する。
RDD1をマップして、住所から郵便番号を抽出し、RDD5を得る
RDD5 を集計し、各郵便番号に何人住んでいるかを RDD6 として取得する。
RDD6を収集し、これらの統計情報を標準出力に表示します。

だから

は ドライバプログラム は、このコード全体であり、8つのステップをすべて実行する。
ステップ5でHTMLカードセット全体を生成するのは仕事 (を使用しているため明確です）。 セーブ アクションで、変換ではありません)。同じく 集める ステップ8で
その他のステップは、以下のように整理されます。 ステージ 各ジョブは、一連のステージの結果である。単純なものであればジョブは1つのステージで済みますが、データを再分割する必要があったり（例えばステップ3の結合）、データの局所性を壊すようなことがあると、通常はより多くのステージが出現します。ステージは中間結果を生成する計算と考えることができ、実際に永続化することができます。例えば、RDD1は複数回使用することになるので、再計算を避けるために永続化することができます。
上記3つは、基本的に ロジック のアルゴリズムが壊れてしまう。これに対して タスク は、特定の データの一部 は、特定のステージ、特定のエグゼキュータを通過することになります。

これで分かりやすくなったでしょうか;-)

[解決済み] スパークジョブとは？

質問

どのように解決するのですか？

関連

[解決済み】spark.driver.maxResultSizeとは何ですか？

[解決済み] PySparkのデータフレームで、各キーのパーセンタイルはどのように計算されますか？

[解決済み] Spark コンテキスト 'sc' が定義されていない

[解決済み] Apache SparkとAkkaの比較【終了しました

[解決済み] format("kafka") で "Failed to find data source: kafka." とエラーになるのはなぜですか？(uber-jarを使用しても)失敗しますか？

[解決済み] spark 2.4.4 をインストールした後に pyspark を実行しようとすると、「TypeError: an integer is required (got type bytes)」というエラーが発生するのを修正する方法

[解決済み] Sparkクラスタがハートビートのタイムアウトでいっぱいになり、エグゼキュータが勝手に終了してしまう。