value_counts

작성: sangseek | 게시 날짜: 2025/12/05 | 조회수: 60

[ 편집불가 ]

"value_counts"는 주로 pandas 라이브러리에서 사용되는 메서드로, 시리즈(또는 데이터프레임의 특정 열) 내의 고유값별 빈도(출현 횟수)를 계산해주는 기능입니다. 의미와 주요 동작을 정리하면 다음과 같습니다. - 목적: 해당 열(Series)에 있는 각 고유값의 개수를 세어 빈도표를 반환. - 반환형: pandas.Series. 인덱스는 고유값, 값은 각 고유값의 출현 횟수(기본적으로 정수). - 기본 동작: 결과를 빈도 내림차순으로 정렬하여 상위 값부터 보여줌. 주요 옵션과 동작: - normalize=True: 상대빈도(비율)를 반환. 각 값의 빈도를 전체 개수로 나눈 값(실수). - sort=True, ascending=False: 기본값은 sort=True, descending(내림차순)으로 빈도 정렬. ascending=True로 오름차순 정렬 가능. - dropna=True: 기본적으로 NaN(결측치)는 제외. dropna=False로 NaN도 하나의 값으로 취급하여 계산 가능. - bins=정수: 연속형 수치 데이터를 구간(bin)으로 나누어 각 구간별 빈도를 계산(구간 인덱스가 결과 인덱스가 됨). - normalize, sort, dropna, bins 등을 함께 사용 가능. 사용 예시(구문): - s.value_counts() — 시리즈 s의 각 값별 빈도 반환. - s.value_counts(normalize=True) — 상대빈도(비율) 반환. - s.value_counts(dropna=False) — NaN 포함해서 빈도 계산. - s.value_counts(bins=4) — 수치형 데이터를 4개 구간으로 나누어 빈도 계산. DataFrame과의 관계: - df['col'].value_counts() — 특정 열의 고유값 빈도 계산(가장 일반적 사용). - pandas.DataFrame.value_counts() — pandas 1.1.0 이후 도입된 기능으로, DataFrame의 행(row) 전체를 하나의 레코드로 보고 고유한 행의 빈도를 계산(행 단위 중복 카운트). 실무적 용도: - 범주형 데이터의 분포 파악(어떤 값이 많은지). - 결측치 포괄 여부 확인(dropna 옵션). - 클래스 불균형 확인(분류 문제에서). - 연속형 변수를 구간화하여 빈도 분석(bins 옵션). 비슷한 기능: - numpy.unique(arr, return_counts=True) — numpy에서 고유값과 개수를 반환(정렬 여부 등 약간 차이 있음). - pandas.Series.value_counts는 결과를 Series 형태로 바로 활용하기 편리하고, pandas의 다른 기능(정렬, 인덱스 기반 연산 등)과 자연스럽게 연결됨. 요약: value_counts는 데이터 내 고유값의 출현 빈도를 계산해주는 편리한 도구로, 빈도(절대/상대), NaN 포함 여부, 구간화 등 다양한 옵션으로 분포를 빠르게 파악할 수 있게 해줍니다.