[解決済み] pandas DataFrameをGroupByして、最も一般的な値を選択する。

2022-05-05 20:45:39

質問

3つの文字列を持つデータフレームがあります。3番目の列の値は、最初の2つの組み合わせに対して1つだけ有効であることが分かっています。データをきれいにするために、最初の2列でデータフレームをグループ化し、各組み合わせについて3列目の最も一般的な値を選択する必要があります。

私のコード

import pandas as pd
from scipy import stats

source = pd.DataFrame({'Country' : ['USA', 'USA', 'Russia','USA'], 
                  'City' : ['New-York', 'New-York', 'Sankt-Petersburg', 'New-York'],
                  'Short name' : ['NY','New','Spb','NY']})

print source.groupby(['Country','City']).agg(lambda x: stats.mode(x['Short name'])[0])

最後の行がうまくいきません。quot;Key error 'Short name'"と表示され、Cityのみでグループ化しようとすると、AssertionErrorが発生しました。どうすれば直せますか？

解決方法は？

を使用することができます。 value_counts() でカウント系列を取得し、最初の行を取得します。

import pandas as pd

source = pd.DataFrame({'Country' : ['USA', 'USA', 'Russia','USA'], 
                  'City' : ['New-York', 'New-York', 'Sankt-Petersburg', 'New-York'],
                  'Short name' : ['NY','New','Spb','NY']})

source.groupby(['Country','City']).agg(lambda x:x.value_counts().index[0])

.agg()の中で他のagg関数を実行するのが気になる場合を試してみてください。

# Let's add a new col,  account
source['account'] = [1,2,3,3]

source.groupby(['Country','City']).agg(mod  = ('Short name', \
                                        lambda x: x.value_counts().index[0]),
                                        avg = ('account', 'mean') \
                                      )

[解決済み] pandas DataFrameをGroupByして、最も一般的な値を選択する。

質問

解決方法は？

関連

[解決済み] PandasでDataFrameの行を反復処理する方法

[解決済み] 列の値に基づいてDataFrameから行を選択するにはどうすればよいですか？

[解決済み] Pandas DataFrameからカラムを削除する

[解決済み] Pandasのデータフレームで複数の列を選択する

[解決済み] Pandas DataFrameの行数を取得する方法は？

[解決済み] 既存のDataFrameに新しい列を追加する方法は？

[解決済み] pandasを使った "大量データ "ワークフロー【終了しました

[解決済み] Pandasのデータフレームから行を選択するために値のリストを使用する

[解決済み] groupbyでグループ内の最大値を持つ行を取得する。

[解決済み】Pandas DataFrameのカラムヘッダからリストを取得する。

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

PythonによるLeNetネットワークモデルの学習と予測

Pythonコンテナのための組み込み汎用関数操作

Python機械学習Githubが8.9Kstarsに達したモデルインタープリタLIME

[解決済み】なぜ「LinAlgError: Grangercausalitytestsから「Singular matrix」と表示されるのはなぜですか？

[解決済み】numpy: true_divide で無効な値に遭遇

[解決済み】SyntaxError: デフォルト以外の引数がデフォルトの引数に続く

[解決済み】ImportError: bs4という名前のモジュールがない(BeautifulSoup)

[解決済み】cアンダースコア式`c_`は、具体的に何をするのですか？

[解決済み】 TypeError: += でサポートされていないオペランド型: 'int' および 'list' です。

[解決済み】 'numpy.float64' オブジェクトは反復可能ではない