상식닷컴
로그인
가입하기
2026년 상식닷컴 선정 식당 & 카페 리스트
2025년 2026년 신상 호텔 리스트
최근에 오픈한 호텔을 찾는다면 살펴보세요
일주일 식단표 어플
자동 일주일 식단표 어플
안드로이드
아이폰
주식 & 코인 차트의 신
1000만원으로 2000만원 만들기 프로젝트
수정하기 - 파이썬 pandas에서 복잡한 데이터 구조를 표현하는 방법은?
닉네임
비밀번호
제목
내용
[이미지 업로드는 권한이 있는 사람만 가능. 하단 카톡으로 연락]
파이썬의 pandas 라이브러리는 다양한 데이터 구조를 효과적으로 처리하고 분석할 수 있는 도구를 제공합니다. 복잡한 데이터 구조를 표현하는 방법에는 여러 가지가 있으며, 주로 DataFrame과 Series를 사용합니다. 아래에서 pandas를 사용하여 복잡한 데이터 구조를 표현하는 몇 가지 방법을 소개하겠습니다. 1. Hierarchical Indexing (다중 인덱스) 다중 인덱스를 사용하면 여러 수준의 인덱스를 만들어 복잡한 데이터 구조를 표현할 수 있습니다. 예를 들어, 다음은 여러 국가와 도시의 인구 데이터를 나타내는 DataFrame입니다. ```python import pandas as pd import numpy as np 데이터 생성 arrays = [['USA', 'USA', 'Canada', 'Canada'], ['New York', 'Los Angeles', 'Toronto', 'Vancouver']] index = pd.MultiIndex.from_arrays(arrays, names=('Country', 'City')) data = np.random.randint(1000, 10000, size=(4,)) df = pd.DataFrame(data, index=index, columns=['Population']) print(df) ``` 2. Long Format vs Wide Format 복잡한 데이터 구조에서 데이터를 "long format" 또는 "wide format"으로 나타낼 수 있습니다. 이는 데이터의 차원과 관계를 표현하는 방법입니다. `pd.melt()` 메소드를 사용하여 wide format을 long format으로 변환할 수 있습니다. ```python 데이터 준비 data = { 'Country': ['USA', 'USA', 'Canada', 'Canada'], 'City': ['New York', 'Los Angeles', 'Toronto', 'Vancouver'], '2010 Population': [8175133, 3792621, 2615055, 603502], '2020 Population': [8336817, 3980405, 2930000, 631486] } df_wide = pd.DataFrame(data) long format으로 변환 df_long = pd.melt(df_wide, id_vars=['Country', 'City'], value_vars=['2010 Population', '2020 Population'], var_name='Year', value_name='Population') print(df_long) ``` 3. Grouping and Aggregation 복잡한 데이터에서 <a href='https://sangseek.com/sangseeks/그룹별/ko'>그룹별</a>로 집계하여 새로운 데이터 구조를 만들 수 있습니다. `groupby()` 메소드를 사용하여 데이터를 특정 조건으로 그룹화한 후, 통계량을 계산할 수 있습니다. ```python 예제 데이터 data = { 'Country': ['USA', 'USA', 'Canada', 'Canada'], 'City': ['New York', 'Los Angeles', 'Toronto', 'Vancouver'], 'Population': [8175133, 3792621, 2615055, 603502] } df = pd.DataFrame(data) Country별로 인구의 합계 계산 grouped = df.groupby('Country')['Population'].sum() print(grouped) ``` 4. Time Series Data pandas는 시간 기반의 데이터를 다루는 데 매우 강력한 기능을 제공합니다. `DatetimeIndex`를 사용하여 복잡한 시간 관련 데이터를 효과적으로 표현하고 분석할 수 있습니다. ```python 날짜 범위 생성 date_rng = pd.date_range(start='2023-01-01', end='2023-01-10', freq='D') 랜덤 데이터 생성 data = np.random.randint(0, 100, size=(len(date_rng),)) df_time_series = pd.DataFrame(data, index=date_rng, columns=['Data']) print(df_time_series) ``` 5. Nested Data (중첩 데이터) pandas는 복잡한 중첩 구조(예: JSON 형식)도 처리할 수 있습니다. `json_normalize()` 함수를 사용하여 중첩된 JSON 데이터를 <a href='https://sangseek.com/sangseeks/평탄화/ko'>평탄화</a>할 수 있습니다. ```python import json 중첩 JSON 데이터 data = [ {"name": "John", "location": {"city": "New York", "state": "NY"}}, {"name": "Jane", "location": {"city": "Los Angeles", "state": "CA"}} ] JSON 데이터 평탄화 df_nested = pd.json_normalize(data) print(df_nested) ``` 이러한 방법을 통해 pandas를 사용하여 다양한 복잡한 데이터 구조를 효과적으로 표현할 수 있습니다. 각 방법은 데이터의 특성과 분석 목적에 따라 선택할 수 있습니다.
이용안내
커뮤니티 이용안내
×
- 게시한 게시글로 발생하는 문제는 게시자에게 책임이 있습니다.
- 게시글이 타인/타업체의 저작권을 침해할 경우 모든 책임은 게시자에게 있습니다. 게시자가 모든 손해를 부담해야 합니다.
- 상식닷컴 운영자는 게시자와 상의하지 않고 게시글을 수정 또는 삭제할 수 있습니다.
- 상식닷컴 운영자는 깨끗한 커뮤니티 공간을 만드는 것이 1순위입니다.
수정하기
취소하기