[解決済み] sparkでsaveAsTextFileするときのファイル名の付け方は？

2022-02-11 15:42:25

質問

sparkバージョン1.5.1でテキストファイルとして保存する際に、以下のように使っています。 rdd.saveAsTextFile('<drectory>') .

しかし、そのディレクトリにあるファイルを見つけたい場合、どのように好きな名前をつければいいのでしょうか？

現在、この名前は part-00000 というのは、何らかのデフォルトでなければなりません。どのように名前をつければいいのでしょうか？

解決方法は？

上のコメントで述べたように、例を含むドキュメントがあります。こちら . そして、メソッドの説明を引用すると saveAsTextFile :

<ブロッククオート

このRDDを、要素の文字列表現を使って、テキストファイルとして保存する。

次の例では、簡単なRDDをファイルに保存し、それをロードしてその内容を表示しています。

samples = sc.parallelize([
    ("[email protected]", "Alberto", "Bonsanto"),
    ("[email protected]", "Miguel", "Bonsanto"),
    ("[email protected]", "Stranger", "Weirdo"),
    ("[email protected]", "Dakota", "Bonsanto")
])

print samples.collect()

samples.saveAsTextFile("folder/here.txt")
read_rdd = sc.textFile("folder/here.txt")

read_rdd.collect()

出力は次のようになります。

('[email protected]', 'Alberto', 'Bonsanto')
('[email protected]', 'Miguel', 'Bonsanto')
('[email protected]', 'Stranger', 'Weirdo')
('[email protected]', 'Dakota', 'Bonsanto')

[u"('[email protected]', 'Alberto', 'Bonsanto')",
 u"('[email protected]', 'Miguel', 'Bonsanto')",
 u"('[email protected]', 'Stranger', 'Weirdo')",
 u"('[email protected]', 'Dakota', 'Bonsanto')"]

Unixベースの端末で見てみましょう。

usr@host:~/folder/here.txt$ cat *
('[email protected]', 'Alberto', 'Bonsanto')
('[email protected]', 'Miguel', 'Bonsanto')
('[email protected]', 'Stranger', 'Weirdo')
('[email protected]', 'Dakota', 'Bonsanto')

[解決済み] sparkでsaveAsTextFileするときのファイル名の付け方は？

質問

解決方法は？

関連

[解決済み】Spark - アプリの投稿時に「設定にマスターURLが設定されている必要があります」というエラーが発生する

[解決済み] SparkでcreateOrReplaceTempViewはどのように動作するのですか？

[解決済み] Spark コンテキスト 'sc' が定義されていない

[解決済み] Spark が "java.net.URISyntaxException" を報告するのはなぜですか？DataFrameを使用する際に「java.net.URIStyntaxException: Relative path in absolute URI」と表示されるのはなぜですか？

[解決済み] Apache SparkとAkkaの比較【終了しました

[解決済み] Spark: 2つのDataFrameを減算する

[解決済み] pyspark : NameError: name 'spark' is not defined.

[解決済み] TypeError: 'Column' オブジェクトは WithColumn を使用して呼び出すことができません。

[解決済み] Spark - repartition() vs coalesce()

[解決済み】SparkコンソールにINFOメッセージを表示させないようにするには？

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

[解決済み] spark.sql.autoBroadcastJoinThresholdは、Datasetの結合演算子を使用して結合するために動作しますか？

[解決済み] SparkでcreateOrReplaceTempViewはどのように動作するのですか？

[解決済み] PySparkのデータフレームで、各キーのパーセンタイルはどのように計算されますか？

[解決済み] Spark: 2つのDataFrameを減算する

[解決済み] pyspark : NameError: name 'spark' is not defined.

[解決済み] Sparkのバージョンを確認する方法【終了しました

[解決済み] 実行中のSparkアプリケーションを終了させるには？

[解決済み] プロパティspark.yarn.jars - どのようにそれに対処するのですか？

[解決済み】Spark Dataframeで列の内容をすべて表示するにはどうすればよいですか？

[解決済み】Spark StandaloneクラスタのWorker、Executor、Coreとは何ですか？