[解決済み] pandasのデータフレームで重複した行を数えるには?
2023-02-12 04:32:39
質問
データフレーム内の各行の重複を数えようとしています。例えば、以下のようなpandasのdataframeがあるとします。
df = pd.DataFrame({'one': pd.Series([1., 1, 1]),
'two': pd.Series([1., 2., 1])})
こんな感じのdfが出ます。
one two
0 1 1
1 1 2
2 1 1
私は、最初のステップは、すべての異なるユニークな行を見つけることであると想像しています。
df.drop_duplicates()
これで、以下のようなdfができました。
one two
0 1 1
1 1 2
さて、上記のdfから各行を取り出し([1 1]と[1 2])、それぞれが最初のdfに何回現れるかを数えたいと思います。私の結果は次のようなものになります。
Row Count
[1 1] 2
[1 2] 1
この最後のステップはどのように行えばよいのでしょうか?
編集します。
より分かりやすくするために、より大きな例を示します。
df = pd.DataFrame({'one': pd.Series([True, True, True, False]),
'two': pd.Series([True, False, False, True]),
'three': pd.Series([True, False, False, False])})
が与えてくれる。
one three two
0 True True True
1 True False False
2 True False False
3 False False True
教えてくれる結果が欲しい。
Row Count
[True True True] 1
[True False False] 2
[False False True] 1
どのように解決するのですか?
あなたは
groupby
を全てのカラムに適用し
size
を呼び出すと、インデックスが重複した値を示します。
In [28]:
df.groupby(df.columns.tolist(),as_index=False).size()
Out[28]:
one three two
False False True 1
True False False 2
True True 1
dtype: int64
関連
-
[解決済み] PandasでDataFrameの行を反復処理する方法
-
[解決済み] 列の値に基づいてDataFrameから行を選択するにはどうすればよいですか?
-
[解決済み] Pandasのカラム名のリネーム
-
[解決済み] Pandas DataFrameからカラムを削除する
-
[解決済み] Pandasのデータフレームで複数の列を選択する
-
[解決済み] Pandas DataFrameの行数を取得する方法は?
-
[解決済み] pandasを使った "大量データ "ワークフロー【終了しました
-
[解決済み】Python Pandas。特定の値に一致するカラムを持つ行のインデックスを取得する
-
[解決済み】2つの辞書を1つの式でマージする(辞書の和をとる)には?)
-
[解決済み] Pandasのデータフレーム内の文字列を'date'データ型に変換するにはどうしたらいいですか?
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
[解決済み] 前月の日時オブジェクトを返す
-
[解決済み] PythonでのAWS Lambdaのインポートモジュールエラー
-
[解決済み] Pandasのデータフレームでタプルの列を分割するにはどうしたらいいですか?
-
[解決済み] Pythonのマルチプロセッシングプールimap_unorderedの呼び出しの進捗を表示しますか?
-
[解決済み] Django Rest Framework ファイルアップロード
-
[解決済み] python-requests モジュールからのすべてのリクエストをログに記録します。
-
[解決済み] pandasのタイムゾーンに対応したDateTimeIndexを、特定のタイムゾーンに対応したナイーブなタイムスタンプに変換する。
-
[解決済み] Pythonで、ウェブサイトが404か200かを確認するためにurllibをどのように使用しますか?
-
[解決済み] PySparkでデータフレームのカラムをString型からDouble型に変更する方法は?
-
[解決済み] Pythonでファイルの読み込みと上書きをする