수정하기 - 머신러닝알고리즘: Bootstrapping의 개념과 활용은?

닉네임

비밀번호

제목

내용 [이미지 업로드는 권한이 있는 사람만 가능. 하단 카톡으로 연락]

Bootstrapping은 통계학자 브래스 앨리스 에프론(Efron)이 제안한 재<a href='https://sangseek.com/sangseeks/표본추출/ko'>표본추출</a>(resampling) 기법으로, 주어진 데이터로부터 크기가 같은 새로운 표본을 중복 허용(sampling with replacement)하여 다수의 가상 표본(bootstrap sample)을 생성하는 과정입니다. 이렇게 생성된 여러 표본으로 관심 있는 통계량(평균, 분산, 회귀계수 등)을 계산함으로써, 원래 표본만으로는 알기 어려운 통계량의 분포 특성이나 불확실성(신뢰구간·편향·분산 등)을 추정할 수 있습니다.    첫째, 부트스트래핑의 기본 아이디어는 “데이터가 곧 모집단의 근사치”라는 가정 하에, 원본 데이터를 마치 모집단이라고 보고 거기서 반복적으로 표본을 뽑아 통계량의 분포를 모의(simulation)한다는 점입니다. 예컨대 원본 데이터가 100개일 때, 이를 그대로 복원추출하여 다시 100개짜리 표본을 수백 번 생성하고, 각 표본에서 평균을 구하면 100개의 평균치가 모이게 됩니다. 이 값들의 분포는 실제 모집단 평균의 분포를 근사하며, 이로부터 평균의 표준오차나 신뢰구간(예: 95% 퍼센트일치 구간)을 계산할 수 있습니다.    둘째, 머신러닝 알고리즘에서 부트스트래핑은 주로 두 가지 측면에서 활용됩니다. 하나는 모델의 평가나 튜닝 단계에서 불확실성을 정량화하는 용도이고, 다른 하나는 앙상블 학습(ensemble learning) 기법으로서 다양성을 확보해 성능을 높이는 용도입니다.    1. <a href='https://sangseek.com/sangseeks/불확실성 추정/ko'>불확실성 추정</a> 및 모델 평가       - 모델이 예측한 성능 지표(정확도·평균제곱오차·AUC 등)에 대해서도 부트스트래핑을 적용할 수 있습니다. 원본 데이터에서 여러 개의 부트스트랩 표본을 만들고 각 표본에 대해 모델을 학습·평가함으로써, 지표의 분포를 얻고 이로부터 평균 성능, 신뢰구간, 분산 등을 계산합니다.       - 특히 데이터가 적거나 분포에 대한 가정이 어려울 때, 분포 비모수적(nonparametric) 기법인 부트스트랩은 통계적 검정의 안정성을 높여 줍니다.    2. 앙상블 학습과 배깅(Bagging)       - 배깅(Bootstrap aggregating)은 부트스트래핑을 기반으로 한 대표적 앙상블 기법입니다. 원본 데이터에서 복원추출된 여러 부트스트랩 표본에 각각 독립적인 학습기(Decision Tree, SVM 등)를 학습시키고, 예측 시에는 이들 결과를 평균 또는 다수결로 결합합니다.       - 이 과정에서 각 학습기는 서로 다른 학습 데이터를 만나므로 다양성이 확보되고, 결과적으로 분산이 줄어드는 효과가 나타납니다. 랜덤포레스트(Random Forest)가 배깅의 한 예로, 부트스트랩 표본을 사용하면서 각 노드 분할 시에도 일부 피처만 무작위 선택해 또 한 번의 무작위성을 더해 성능을 극대화합니다.       - 부트스트랩 표본에 포함되지 않은 관측치를 이용해 OOB(out-of-bag) 오류를 계산함으로써 별도의 교차검증 없이 모델 성능을 추정할 수도 있습니다.    셋째, 부트스트래핑에는 몇 가지 변형 기법이 있습니다. 시계열 데이터처럼 독립성 가정이 깨지는 경우에는 연속된 블록(block) 단위로 샘플링하는 블록 부트스트랩(block bootstrap)을 쓸 수 있고, 베이지안 관점의 베이즈 부트스트랩(Bayesian bootstrap)은 표본마다 가중치를 부여해 불확실성을 반영하는 방법입니다.    마지막으로 부트스트래핑의 장점은 통계적 분포 가정이 필요 없다는 비모수적 접근(nonparametric)이라는 점과, 작은 데이터셋에서도 비교적 신뢰할 만한 불확실성 평가를 할 수 있다는 점입니다. 반면 단점으로는 <a href='https://sangseek.com/sangseeks/반복 학습/ko'>반복 학습</a>·계산이 많아 계산 비용이 커질 수 있으며, 데이터에 중복이 많아 표본 자체가 편향될 수 있다는 점을 들 수 있습니다. 이러한 특성을 잘 이해하고 활용한다면, 부트스트래핑은 머신러닝 모델의 신뢰도를 높이고 앙상블 성능을 강화하는 데 매우 유용한 기법입니다.