• 再現性の高いApache Sparkのサンプルの作り方

    質問 私は、いくつかの質問を読むのにかなりの時間を費やしてきました。 pyspark と spark-dataframe タグを使用していますが、投稿者が自分の質問を本当に理解するのに十分な情報を提供していないことがよくあります。私は通常、投稿者に MCVE を投稿するよう依頼しますが、入出力データのサンプルを見せるように依頼するのは、歯を抜くようなものです。 おそ

    2023-09-28 19:33:50
  • [解決済み] Spark DataFrameをピボットするには?

    質問 Spark DataFrame を使い始めていますが、データをピボットして、1列の複数行から複数列を作成できるようにする必要があります。 ScaldingとPythonのPandasにはそのための機能が組み込まれていますが、新しいSpark Dataframeには何も見当たりません。 私はこれを行うために何らかのカスタム関数を書くことができると仮定しますが、特に私はSparkの初心

    2023-06-20 02:01:41
  • [解決済み] PySpark DataFrameの集約の列の名前の変更

    質問 PySparkのDataFrameを使ってデータを解析しています。例えば、以下のようなDataFrameがあるとします。 df があって、それを集計しているとします。 (df.groupBy("group") .agg({"money":"sum"}) .show(100) ) これで group SUM(money#2L) A

    2023-03-20 19:27:25
  • [解決済み】SparkのDataFrame、Dataset、RDDの違いについて

    質問 とはどう違うのでしょうか? RDD と DataFrame (Spark 2.0.0 DataFrame は単なる型のエイリアスで Dataset[Row] ) をApache Sparkで使用することはできますか? 一方を他方に変換することはできますか? どのように解決するのですか? A DataFrame は、グーグル検索で「DataFrame defi

    2022-03-28 22:52:57