1. ホーム
  2. python

[解決済み】pandas GroupBy.agg()を使って同じ列を複数回集約する。)

2022-04-15 08:29:25

質問

2つの異なる集約関数を適用するためのpandas組み込みの方法はありますか? f1, f2 を同じ列 df["returns"] を呼び出すことなく agg() 何度も?

データフレームの例です。

import pandas as pd
import datetime as dt
import numpy as np

pd.np.random.seed(0)
df = pd.DataFrame({
         "date"    :  [dt.date(2012, x, 1) for x in range(1, 11)], 
         "returns" :  0.05 * np.random.randn(10), 
         "dummy"   :  np.repeat(1, 10)
}) 

構文的には間違っているが、直感的には正しい方法は、次のようになる。

# Assume `f1` and `f2` are defined for aggregating.
df.groupby("dummy").agg({"returns": f1, "returns": f2})

明らかに、Pythonはキーの重複を許しません。への入力を表現する他の方法はないのでしょうか? agg() ? おそらくタプルのリスト [(column, function)] の方が、同じ列に複数の関数を適用できるため、よりうまくいくのではないでしょうか?しかし agg() は、辞書しか受け付けないようです。

補助関数を定義して、その中の両方の関数を適用させる以外に、回避策はありますか?(いずれにせよ、これは集計でどのように機能するでしょうか?)

どのように解決するのですか?

関数をリストで渡すだけです。

In [20]: df.groupby("dummy").agg({"returns": [np.mean, np.sum]})
Out[20]:         
           mean       sum
dummy                    
1      0.036901  0.369012

または辞書として使用することができます。

In [21]: df.groupby('dummy').agg({'returns':
                                  {'Mean': np.mean, 'Sum': np.sum}})
Out[21]: 
        returns          
           Mean       Sum
dummy                    
1      0.036901  0.369012

deprecation warining を回避するため。

df.groupby('dummy').agg(Mean=('returns', np.mean),
                        Sum=('returns', np.sum))