1. ホーム
  2. python

[解決済み] PySparkでテーブルのデータフレームをcsvにエクスポートするには?

2023-01-04 07:45:08

質問

Spark 1.3.1 (PySpark) を使用しており、SQLクエリを使用してテーブルを生成しました。私は今、オブジェクトが DataFrame . 私はこれをエクスポートしたい DataFrame オブジェクト (私はそれを "table" と呼んでいます) を csv ファイルにエクスポートして、それを操作して列をプロットできるようにしたいのです。どのように DataFrame table"をcsvファイルにエクスポートするにはどうしたらよいですか?

ありがとうございます。

どのように解決するのですか?

データフレームがドライバのメモリに収まり、ローカルファイルに保存したい場合は、以下のように変換します。 スパークデータフレーム をローカルの Pandasのデータフレーム を使って toPandas メソッドを使用して、単純に to_csv :

df.toPandas().to_csv('mycsv.csv')

それ以外の場合は spark-csv :

  • スパーク1.3

    df.save('mycsv.csv', 'com.databricks.spark.csv')
    
    
  • Spark 1.4+

    df.write.format('com.databricks.spark.csv').save('mycsv.csv')
    
    

Spark 2.0+では、以下のように csv のデータソースを直接使用することができます。

df.write.csv('mycsv.csv')