[解決済み】pysparkでデータフレームの列名を変更する方法は？

2022-04-02 07:36:51

質問

私はpandas出身で、CSVファイルからデータをdataframeに読み込み、simpleコマンドを使って列名を有用なものに変更することに慣れています。

df.columns = new_column_name_list

しかし、sqlContextを使用して作成されたpysparkのデータフレームでは、同じように動作しません。これを簡単に行うために私が考え出した唯一の解決策は、次のとおりです。

df = sqlContext.read.format("com.databricks.spark.csv").options(header='false', inferschema='true', delimiter='\t').load("data.txt")
oldSchema = df.schema
for i,k in enumerate(oldSchema.fields):
  k.name = new_column_name_list[i]
df = sqlContext.read.format("com.databricks.spark.csv").options(header='false', delimiter='\t').load("data.txt", schema=oldSchema)

これは基本的に、変数を2回定義し、最初にスキーマを推測してからカラム名を変更し、更新されたスキーマでデータフレームを再度ロードしています。

pandasで行っているような、より効率的な方法はありますか？

私のSparkのバージョンは1.5.0です。

解決方法を教えてください。

いろいろなやり方があるんですね。

オプション1. 使用方法 selectExpr .

 data = sqlContext.createDataFrame([("Alberto", 2), ("Dakota", 2)], 
                                   ["Name", "askdaosdka"])
 data.show()
 data.printSchema()

 # Output
 #+-------+----------+
 #|   Name|askdaosdka|
 #+-------+----------+
 #|Alberto|         2|
 #| Dakota|         2|
 #+-------+----------+

 #root
 # |-- Name: string (nullable = true)
 # |-- askdaosdka: long (nullable = true)

 df = data.selectExpr("Name as name", "askdaosdka as age")
 df.show()
 df.printSchema()

 # Output
 #+-------+---+
 #|   name|age|
 #+-------+---+
 #|Alberto|  2|
 #| Dakota|  2|
 #+-------+---+

 #root
 # |-- name: string (nullable = true)
 # |-- age: long (nullable = true)

オプション 2. 使用方法 withColumnRenamed この方法では、同じ列を上書きすることができることに注意してください。Python3では、次のように置き換えます。 xrange を range .

 from functools import reduce

 oldColumns = data.schema.names
 newColumns = ["name", "age"]

 df = reduce(lambda data, idx: data.withColumnRenamed(oldColumns[idx], newColumns[idx]), xrange(len(oldColumns)), data)
 df.printSchema()
 df.show()

オプション3.使用エイリアス Scala ではとして .

 from pyspark.sql.functions import col

 data = data.select(col("Name").alias("name"), col("askdaosdka").alias("age"))
 data.show()

 # Output
 #+-------+---+
 #|   name|age|
 #+-------+---+
 #|Alberto|  2|
 #| Dakota|  2|
 #+-------+---+

オプション 4. 使用方法 sqlContext.sql でSQLクエリを使用することができます。 DataFrames テーブルとして登録されている。

 sqlContext.registerDataFrameAsTable(data, "myTable")
 df2 = sqlContext.sql("SELECT Name AS name, askdaosdka as age from myTable")

 df2.show()

 # Output
 #+-------+---+
 #|   name|age|
 #+-------+---+
 #|Alberto|  2|
 #| Dakota|  2|
 #+-------+---+

[解決済み】pysparkでデータフレームの列名を変更する方法は？

質問

解決方法を教えてください。

関連

pythonサイクルタスクスケジューリングツールスケジュール詳解

[解決済み】Django: ImproperlyConfigured: SECRET_KEY 設定は空であってはならない

[解決済み】django インポートエラー - core.managementという名前のモジュールがない

[解決済み] プログラムの実行やシステムコマンドの呼び出しはどのように行うのですか？

[解決済み] PandasでDataFrameの行を反復処理する方法

[解決済み] 列の値に基づいてDataFrameから行を選択するにはどうすればよいですか？

[解決済み] Pandasのカラム名のリネーム

[解決済み] Pandas DataFrameからカラムを削除する

[解決済み】ネストされたディレクトリを安全に作成するには？

[解決済み】2つの辞書を1つの式でマージする（辞書の和をとる）には？）

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

パッケージングツールPyinstallerの使用と落とし穴の回避

Python入門 openを使ったファイルの読み書きの方法

[解決済み】Python regex AttributeError: 'NoneType' オブジェクトに 'group' 属性がない。

[解決済み】なぜ「LinAlgError: Grangercausalitytestsから「Singular matrix」と表示されるのはなぜですか？

[解決済み】OSError: [WinError 193] %1 は有効な Win32 アプリケーションではありません。

[解決済み】Python elifの構文が無効です【終了しました

[解決済み】Flask ImportError: Flask という名前のモジュールがない

[解決済み】「OverflowError: Python int too large to convert to C long" on windows but not mac

[解決済み】 'numpy.float64' オブジェクトは反復可能ではない

[解決済み] NameError: 名前 'reduce' はPythonで定義されていません。