수정하기 - 머신러닝알고리즘: Active Learning이란 무엇인가요?

닉네임

비밀번호

제목

내용 [이미지 업로드는 권한이 있는 사람만 가능. 하단 카톡으로 연락]

머신러닝에서 Active Learning(능동 학습)은 모델이 학습에 사용할 라벨링된 데이터(Annotated Data)를 능동적으로 선택하고 요청하는 기법입니다. 일반적인 수동 학습(Supervised Learning)에서는 대량의 라벨링된 데이터를 미리 준비해두고 이를 모두 학습에 사용하지만, Active Learning은 “어떤 데이터를 라벨링하는 것이 모델 성능 향상에 가장 효과적인가”를 스스로 판단하여 해당 샘플만 전문가에게 라벨을 요청합니다. 이런 방식을 통해 동일한 예산이나 시간 내에서 더 높은 성능을 얻거나, 라벨링 비용을 절감할 수 있습니다.    첫째, Active Learning이 필요한 배경부터 살펴보면, 많은 실제 응용 분야에서 데이터는 풍부하지만 전문가가 일일이 라벨을 달기에는 비용이나 시간이 너무 많이 듭니다. 예컨대 의료 영상 진단, 법률 문서 분류, 특수 언어 번역 등에서는 전문 지식이 필수이며 라벨링 단가가 높습니다. 이때 Active Learning은 모델이 정보량이 높은(불확실하거나 대표성이 큰) 샘플을 선별해 전문가에게만 라벨을 요청함으로써 제한된 자원으로도 우수한 성능을 달성하도록 돕습니다.    Active Learning이 일반적으로 수행되는 과정은 다음과 같습니다.    1) 초기에는 소량의 라벨링된 데이터를 사용해 모델을 학습합니다.    2) 학습된 모델을 이용해 아직 라벨이 없는(또는 취약한) 대규모 데이터 풀(pool)에서 각 샘플이 모델 학습에 기여도가 클 것으로 예상되는지를 평가합니다.    3) 가치 평가(value assessment)를 통해 가장 정보가 많다고 판단된 샘플을 선정하고, 이를 전문가에게 라벨링 의뢰합니다.    4) 새로 라벨된 데이터를 기존 학습 데이터에 추가한 뒤, 모델을 재학습합니다.    5) 성능이 만족스럽게 향상되거나 예산이 소진될 때까지 2~4단계를 반복합니다.    가치 평가 전략은 Active Learning의 핵심입니다. 대표적인 방법 몇 가지를 소개하면 다음과 같습니다.    • 불확실성 샘플링(Uncertainty Sampling): 모델이 분류 확률을 가장 낮게 판단하거나 결정 경계 근처에 놓인 샘플을 선택합니다. 예를 들어 확률 출력이 0.5에 가까운(이진 분류 기준) 항목이나, Top-k 클래스 간 확률 차이가 작은 항목을 우선 라벨링합니다.    • 위원회 기반(Query by Committee): 서로 다른 파라미터나 초기화 값을 가진 여러 모델(위원회)을 학습한 뒤, 이들 간 의견 일치도가 가장 낮은 샘플을 선정합니다. 다양한 모델이 최대 한도로 의견 차이를 보이는 지점이 학습에 정보성이 크다고 보는 접근입니다.    • 기대 모델 변경(Expected Model Change): 특정 샘플에 라벨을 부여했을 때 모델 파라미터가 얼마나 크게 바뀔지를 예측하여, 변동 폭이 큰 샘플을 우선 선택합니다.    • 기대 오류 감소(Expected Error Reduction): 라벨링된 후 전체 데이터에 대한 모델의 예측 오류가 얼마나 감소할지를 시뮬레이션해보고, 그 감소 폭이 큰 샘플을 고릅니다.    • 밀도 가중( Density-Weighted ) 혹은 <a href='https://sangseek.com/sangseeks/표현성/ko'>표현성</a> 기반(Representativeness) 기법: 불확실성만 고려할 경우 이상치나 노이즈가 많은 샘플에 집중될 위험이 있으므로, 데이터 집합 내에서 대표성이 크고 다른 샘플과 유사도가 높은 영역에 속한 불확실 샘플을 선택하도록 가중치를 조정합니다.    Active Learning은 특히 다음과 같은 상황에서 효과적입니다.    - 라벨링 비용이 매우 높거나 시간이 오래 걸릴 때    - 드물거나 희소한 클래스(<a href='https://sangseek.com/sangseeks/불균형 데이터/ko'>불균형 데이터</a>)에서 성능을 높이고 싶을 때    - 온라인으로 계속해서 데이터가 유입되는 스트리밍 환경에서 모델을 유지-보수해야 할 때      물론 실제 적용 시 유의할 점도 있습니다. 먼저 가치 평가를 위해 매번 모든 unlabeled 데이터에 대해 모델을 돌려야 하므로 계산 비용이 커질 수 있습니다. 또 초기 샘플이 지나치게 편향되면 잘못된 방향으로 학습이 진행될 위험이 있으며, 모델의 불확실도나 위원회 간 불일치度가 반드시 실제 정보량과 일치한다고 보장하기 어렵습니다. 따라서 Active Learning을 도입할 때는 초기 데이터 설계, 쿼리 전략의 하이퍼파라미터, 계산 효율성, 노이즈·아웃라이어 처리 등을 종합적으로 고려해야 합니다.    요약하자면 Active Learning은 제한된 라벨링 자원으로 최대의 성능 향상을 달성하고자, 모델이 스스로 “이 샘플이 내게 가장 도움이 될 것 같다”라고 판단해 라벨 요청 우선순위를 결정하는 능동적 데이터 선택 기법입니다. 올바른 쿼리 전략과 실무 환경에 적합한 설정을 결합하면, 많은 산업 분야에서 비용 대비 높은 효율을 기대할 수 있습니다.