pandas.DataFrameの連続する重複データの削除(複数列判定)

eyecatching_pandas-drop-consecutive-duplicate-multiple-columns プログラミング
この記事は約1分で読めます。
これで紹介されているpandas.DataFrameの連続する重複データ削除の複数列バージョンをやったので記事にした。

やり方

df[(df[columns] != df[columns].shift(1)).any(axis="columns")]でできる。drop_dupulicatekeep=first的な感じで最初の行が残る。shiftの引数を-1にして、df[(df[columns] != df[columns].shift(-1)).any(axis="columns")]とすると、drop_dupulicatekeep=last的な感じで最後の行が残る。

その他

・連続した重複データに対するdf.groupby(columns_xy).sum()的なやつをやりたい。

タイトルとURLをコピーしました