Pandasの重複行の扱い:カウント、削除、結合の手法を解説

  • 2023年8月30日
  • Python
  • 3905回
  • 0件

この記事では、Pandasにおけるデータフレーム内の重複行に対する操作として、カウント、削除、結合の3つについて解説します。

重複行をカウントする

基本的なカウント方法

Pandasのduplicated()メソッドを使うと、データフレーム内の重複行を簡単に見つけることができます。このメソッドは、各行が重複しているかどうかを真偽値で返します。

import pandas as pd

# データフレームを作成
df = pd.DataFrame({'A': [1, 2, 2, 3, 4, 4, 5], 'B': [5, 4, 4, 3, 2, 2, 1]})

# 重複行をカウント
duplicate_count = df.duplicated().sum()
print(f"重複行の数: {duplicate_count}")
重複行の数: 2

特定の列でカウント

特定の列に基づいて重複行をカウントすることも可能です。subset引数に列名を指定することで、その列に基づいて重複をチェックします。

duplicate_count_column = df.duplicated(subset=['A']).sum()
print(f"A列での重複行の数: {duplicate_count_column}")
A列での重複行の数: 2

重複行を削除する

すべての列で削除

drop_duplicates()メソッドを使うと、重複行を削除できます。引数を指定しない場合、すべての列が同じである行が削除されます。

df_unique = df.drop_duplicates()

特定の列で削除

subset引数を使って、特定の列に基づいて重複行を削除することができます。

df_unique_column = df.drop_duplicates(subset=['A'])

条件を指定して削除

df.duplicatedを用いて条件を指定しながら重複行を削除することも可能です。以下の例では、Aが3以下のデータのうちABの組み合わせが重複している行を削除します。

df_unique_column  =  df[~((df['A'] <= 3) & df.duplicated(subset=['A', 'B']))]

重複行を削除する際の keep パラメータの使い方

pandas.DataFrame.drop_duplicates メソッドの keep パラメータは、重複行を削除する際にどの行を保持するかを指定するためのものです。以下の3つのオプションがあります。

# 最初の行を残す(デフォルト)
df.drop_duplicates(keep='first')

# 最後の行を残す
df.drop_duplicates(keep='last')

# すべての重複行を削除
df.drop_duplicates(keep=False)

このパラメータを利用することで、データの特性やビジネスの要件に応じて、最も適切な重複行の処理方法を選択することができます。

重複行を結合する

ここでの結合は「特定の列が重複する行について、何らかの集計操作(例:合計、平均、最大値、最小値など)を行うこと」を指します。

groupbyを使った結合

groupby()メソッドを使うと、特定の列に基づいてデータをグループ化し、その後各グループに対して集計操作(合計、平均など)を行えます。

df_grouped = df.groupby('A').sum()

agg()関数を使うと、複数の集計操作を一度に行うことができます。

df_grouped_advanced = df.groupby('A').agg({'B': ['sum', 'mean']})

重複行をフラグとしてマークする方法

duplicated メソッドを使用すると、重複行をTrue/Falseでフラグ付けできます。これは、データの探索段階で重複行を特定する際や、後で何らかの処理を行うために重複行を識別する必要がある場合に便利です。

# 重複行をフラグ付け
df['is_duplicated'] = df.duplicated()
print(df)
   A  B  is_duplicated
0  1  5          False
1  2  4          False
2  2  4           True
3  3  3          False
4  4  2          False
5  4  2           True
6  5  1          False
duplicated メソッドは、大規模なデータセットに対しては時間がかかる場合があります。パフォーマンスを考慮する場合、上で解説した特定の列だけで重複をチェックすることで計算時間を短縮できます。

実務での重複行処理のベストプラクティス

実務ではこれまでご紹介した方法に従って、以下の手順で実行すると良いでしょう。

  1. データの探索: まず、重複行のカウントによって重複行が存在するか確認します。
  2. ビジネスロジックの確認: 重複行を削除すべきかどうか、ビジネスロジックや分析目的に照らし合わせて判断します。
  3. 条件付き削除: keep パラメータや特定の列を指定して、条件に基づいて重複行を削除します。
  4. パフォーマンス: 大規模なデータセットを扱う場合は、パフォーマンスを考慮して適切な列を選びます。
  5. データ品質の確認: 重複行を削除した後、データの品質が保たれているか確認します。

以上、この記事ではPandasを使って重複行に対する多様な操作を解説しました。これらのテクニックはデータクレンジングや前処理、さらには高度なデータ分析にも応用できます。ぜひマスターしてデータ分析の作業を効率化してください。

最新情報をチェックしよう!