[解決済み] 重複するインデックスを持つpandasの行を削除する

2022-03-14 16:02:16

質問

重複するインデックス値を持つ行を削除するには？

下の気象データフレームでは、科学者が観測結果をさかのぼって修正することがあります。間違った行を編集するのではなく、重複する行をファイルの末尾に追加することによって修正します。

ウェブから自動化された気象データを読んでいる(観測は5分ごとに行われ、各測候所ごとに月別ファイルにまとめられている)。ファイルをパースすると、DataFrameは次のようになります。

                      Sta  Precip1hr  Precip5min  Temp  DewPnt  WindSpd  WindDir  AtmPress
Date                                                                                      
2001-01-01 00:00:00  KPDX          0           0     4       3        0        0     30.31
2001-01-01 00:05:00  KPDX          0           0     4       3        0        0     30.30
2001-01-01 00:10:00  KPDX          0           0     4       3        4       80     30.30
2001-01-01 00:15:00  KPDX          0           0     3       2        5       90     30.30
2001-01-01 00:20:00  KPDX          0           0     3       2       10      110     30.28

重複する場合の例です。

import pandas 
import datetime

startdate = datetime.datetime(2001, 1, 1, 0, 0)
enddate = datetime.datetime(2001, 1, 1, 5, 0)
index = pandas.DatetimeIndex(start=startdate, end=enddate, freq='H')
data1 = {'A' : range(6), 'B' : range(6)}
data2 = {'A' : [20, -30, 40], 'B' : [-50, 60, -70]}
df1 = pandas.DataFrame(data=data1, index=index)
df2 = pandas.DataFrame(data=data2, index=index[:3])
df3 = df2.append(df1)

df3
                       A   B
2001-01-01 00:00:00   20 -50
2001-01-01 01:00:00  -30  60
2001-01-01 02:00:00   40 -70
2001-01-01 03:00:00    3   3
2001-01-01 04:00:00    4   4
2001-01-01 05:00:00    5   5
2001-01-01 00:00:00    0   0
2001-01-01 01:00:00    1   1
2001-01-01 02:00:00    2   2

で、必要なのは df3 に最終的になるようにします。

                       A   B
2001-01-01 00:00:00    0   0
2001-01-01 01:00:00    1   1
2001-01-01 02:00:00    2   2
2001-01-01 03:00:00    3   3
2001-01-01 04:00:00    4   4
2001-01-01 05:00:00    5   5

と思ったのですが、行番号の列を追加することで ( df3['rownum'] = range(df3.shape[0]) のどのような値に対しても、最下段の行を選択できるようになります。 DatetimeIndex を理解するのに行き詰っています。 group_by または pivot (または???)ステートメントを使用して、それを動作させることができます。

どのように解決するのですか？

を使うことをお勧めします。重複メソッドを Pandas Index 自身に追加します。

df3 = df3[~df3.index.duplicated(keep='first')]

他のすべてのメソッドが動作している間 .drop_duplicates は、この例では圧倒的にパフォーマンスが低いです。さらに groupbyメソッドはパフォーマンスがわずかに劣りますが、私は重複したメソッドの方が読みやすいと思います。

提供されたサンプルデータを使って

>>> %timeit df3.reset_index().drop_duplicates(subset='index', keep='first').set_index('index')
1000 loops, best of 3: 1.54 ms per loop

>>> %timeit df3.groupby(df3.index).first()
1000 loops, best of 3: 580 µs per loop

>>> %timeit df3[~df3.index.duplicated(keep='first')]
1000 loops, best of 3: 307 µs per loop

なお、最後の要素は、keep 引数を 'last' .

また、このメソッドが MultiIndex で指定されたdf1を使用）。 Paulの例 ):

>>> %timeit df1.groupby(level=df1.index.names).last()
1000 loops, best of 3: 771 µs per loop

>>> %timeit df1[~df1.index.duplicated(keep='last')]
1000 loops, best of 3: 365 µs per loop

[解決済み] 重複するインデックスを持つpandasの行を削除する

質問

どのように解決するのですか？

関連

[解決済み】Pythonスクリプトで「Expected 2D array, got 1D array instead: 」というエラーが発生？

[解決済み] PandasでDataFrameの行を反復処理する方法

[解決済み] 列の値に基づいてDataFrameから行を選択するにはどうすればよいですか？

[解決済み] Pandasのカラム名のリネーム

[解決済み] SQLテーブルで重複する値を検索する

[解決済み] Pandas DataFrameからカラムを削除する

[解決済み] Pandasのデータフレームで複数の列を選択する

[解決済み] Pandas DataFrameの行数を取得する方法は？

[解決済み] 重複した行を削除するにはどうすればよいですか？

[解決済み】Pandas DataFrameのカラムヘッダからリストを取得する。

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

pythonを使ったオフィス自動化コード例

Pythonの学習とデータマイニングのために知っておくべきターミナルコマンドのトップ10

パッケージングツールPyinstallerの使用と落とし穴の回避

Python 入出力と高次代入の基礎知識

Pythonの画像ファイル処理用ライブラリ「Pillow」（グラフィックの詳細）

[解決済み】TypeError: unhashable type: 'numpy.ndarray'.

[解決済み】Python regex AttributeError: 'NoneType' オブジェクトに 'group' 属性がない。

[解決済み】OSError: [WinError 193] %1 は有効な Win32 アプリケーションではありません。

[解決済み】TypeError: 系列を <class 'float'> に変換することができません。

[解決済み] Concat DataFrame Reindexing は、一意的に評価される Index オブジェクトでのみ有効です。