수정하기 - 파이썬 pandas로 중복 데이터를 제거하는 방법은?

닉네임

비밀번호

제목

내용 [이미지 업로드는 권한이 있는 사람만 가능. 하단 카톡으로 연락]

Pandas를 사용하여 중복 데이터를 제거하는 방법은 매우 간단합니다. Pandas의 `drop_duplicates()` 메서드를 사용하면 DataFrame에서 중복된 행을 쉽게 제거할 수 있습니다. 이 메서드는 기본적으로 모든 열을 기준으로 중복을 확인하지만, 특정 열에 대해서만 중복 제거를 수행할 수도 있습니다.    다음은 Pandas로 중복 데이터를 제거하는 방법에 대한 기본적인 예제입니다.           1. 기본 사용법    우선, `pandas` 라이브러리를 임포트하고 예제 데이터를 생성합니다.    ```python  import pandas as pd       예제 데이터 생성  data = {      'A': [1, 2, 2, 3, 3, 3],      'B': ['a', 'b', 'b', 'c', 'c', 'c'],      'C': [10, 20, 20, 30, 30, 30]  }    df = pd.DataFrame(data)  print("원본 DataFrame:")  print(df)  ```    ![DataFrame 1](https://user-images.githubusercontent.com/44002423/129290410-0a84<a href='https://sangseek.com/sangseeks/069/ko'>069</a>a-8974-4e0a-b2d7-fc663c7ab1c3.png)           2. 중복 데이터 제거    이제 `drop_duplicates()` 메서드를 사용하여 중복된 행을 제거합니다.    ```python     중복된 행 제거  df_unique = df.drop_duplicates()  print("\n중복 제거 후 DataFrame:")  print(df_unique)  ```           3. 특정 열을 기준으로 중복 제거    특정 열을 기준으로 중복을 제거하고 싶다면 `subset` 매개변수를 사용할 수 있습니다.    ```python     특정 열(A, B)을 기준으로 중복 제거  df_unique_subset = df.drop_duplicates(subset=['A', 'B'])  print("\n특정 열 기준으로 중복 제거 후 DataFrame:")  print(df_unique_subset)  ```           4. 중복 제거 시 마지막 중복 유지하기    기본적으로 `drop_duplicates()`는 첫 번째 중복된 값을 유지하지만, `keep` 매개변수를 사용하여 다른 중복 행 유지 방식을 선택할 수 있습니다.    - `keep='first'`: 첫 번째 중복 유지 (기본값)  - `keep='last'`: 마지막 중복 유지  - `keep=False`: 모든 중복 제거    예를 들어, 마지막 중복을 유지하고 싶다면 다음과 같이 합니다.    ```python     마지막 중복 유지  df_unique_last = df.drop_duplicates(keep='last')  print("\n마지막 중복 유지한 DataFrame:")  print(df_unique_last)  ```           5. 인덱스 <a href='https://sangseek.com/sangseeks/재설정/ko'>재설정</a>    중복을 제거한 후 인덱스를 재설정하려면 `reset_index()` 메서드를 사용할 수 있습니다.    ```python     인덱스 재설정  df_reset_index = df_unique.reset_index(drop=True)  print("\n인덱스 재설정 후 DataFrame:")  print(df_reset_index)  ```    이상으로 Pandas에서 중복 데이터를 제거하는 기본적인 방법을 설명했습니다. 필요에 따라 옵션을 조정하여 원하는 방식으로 중복을 처리할 수 있습니다.