1. ホーム
  2. python

[解決済み] PandasのGroupByの出力をSeriesからDataFrameに変換する

2022-03-16 01:32:13

質問

次のような入力データから始めます。

df1 = pandas.DataFrame( { 
    "Name" : ["Alice", "Bob", "Mallory", "Mallory", "Bob" , "Mallory"] , 
    "City" : ["Seattle", "Seattle", "Portland", "Seattle", "Seattle", "Portland"] } )

これを印刷すると次のようになります。

   City     Name
0   Seattle    Alice
1   Seattle      Bob
2  Portland  Mallory
3   Seattle  Mallory
4   Seattle      Bob
5  Portland  Mallory

グループ分けは簡単です。

g1 = df1.groupby( [ "Name", "City"] ).count()

を出力し、印刷すると GroupBy オブジェクトを作成します。

                  City  Name
Name    City
Alice   Seattle      1     1
Bob     Seattle      2     2
Mallory Portland     2     2
        Seattle      1     1

しかし、私が最終的に欲しいのは、GroupByオブジェクトのすべての行を含む別のDataFrameオブジェクトです。言い換えれば、私は次のような結果を得たいのです。

                  City  Name
Name    City
Alice   Seattle      1     1
Bob     Seattle      2     2
Mallory Portland     2     2
Mallory Seattle      1     1

pandasのドキュメントを見ても、これを達成する方法がよくわかりません。何かヒントがあれば幸いです。

どのように解決するのですか?

g1 ここで はDataFrameです。階層的なインデックスを持っていますが。

In [19]: type(g1)
Out[19]: pandas.core.frame.DataFrame

In [20]: g1.index
Out[20]: 
MultiIndex([('Alice', 'Seattle'), ('Bob', 'Seattle'), ('Mallory', 'Portland'),
       ('Mallory', 'Seattle')], dtype=object)

もしかしたら、こんな風にしたいのでは?

In [21]: g1.add_suffix('_Count').reset_index()
Out[21]: 
      Name      City  City_Count  Name_Count
0    Alice   Seattle           1           1
1      Bob   Seattle           2           2
2  Mallory  Portland           2           2
3  Mallory   Seattle           1           1

といった感じでしょうか。

In [36]: DataFrame({'count' : df1.groupby( [ "Name", "City"] ).size()}).reset_index()
Out[36]: 
      Name      City  count
0    Alice   Seattle      1
1      Bob   Seattle      2
2  Mallory  Portland      2
3  Mallory   Seattle      1