수정하기 - 머신러닝알고리즘: Booth Surprise란 무엇인가요?

닉네임

비밀번호

제목

내용 [이미지 업로드는 권한이 있는 사람만 가능. 하단 카톡으로 연락]

Booth Surprise라는 용어는 머신러닝·<a href='https://sangseek.com/sangseeks/정보이론/ko'>정보이론</a> 분야에서 널리 표준화된 개념이라기보다는, “새로운 관측값이 모델의 신념(belief)에 얼마나 큰 변화를 일으키는지”를 정량화하려는 노력의 일환으로 등장한 변형 중 하나로 이해할 수 있습니다. 전형적으로 다음과 같은 맥락에서 설명할 수 있습니다.    1. 배경       • 정보 이론에서 ‘놀람(surprise)’ 또는 ‘자기정보(self-information)’는 어떤 사건 x가 발생했을 때 얻는 정보량을 –log p(x)로 측정합니다.       • 한편 “Bayesian Surprise”(Itti & Baldi, 2009)는 관측값을 받고 사전 확률(prior) p(θ)에서 사후 확률(posterior) p(θ|D,x)로 신념이 얼마나 바뀌었는지를 Kullback–Leibler divergence로 측정합니다.      2. Booth Surprise의 핵심 아이디어       Booth Surprise는 위의 ‘Bayesian Surprise’를 실제 머신러닝 시스템에 적용할 때 겪는 몇 가지 어려움을 완화하거나, 데이터 스트림 환경에서 실시간으로 ‘놀람 정도’를 평가하기 위해 고안된 변형입니다. 크게 세 가지 요소가 특징적입니다.       1) 근사 분포 사용         – 모델 파라미터 θ의 완전한 posterior를 구하기 어려운 경우가 많으므로, Booth Surprise에서는 변동추론(Variational Inference)이나 마르코프 연쇄 몬테카를로(MCMC) 방법으로 근사 posterior q(θ) ≈ p(θ|D,x)를 구합니다.       2) 순차적 업데이트 강조         – 데이터가 스트리밍으로 들어올 때마다 전체 데이터를 재학습하기보다는, 이전 시점의 근사 posterior q_t(θ)와 새 관측값 x_{t+1}을 반영한 q_{t+1}(θ) 사이의 변화량을 측정합니다.       3) 계산 <a href='https://sangseek.com/sangseeks/복잡도/ko'>복잡도</a> 절감         – 순수 KL divergence 계산 외에도, 확률 밀도 비율(posterior/prior)이나 하위 차원(moment matching)만 이용해 근사 surprise를 산출하는 트릭을 도입합니다.      3. 수식적 정의 (대표적 형태)       Booth Surprise S_B(x_{t+1})를 간단히 정리하면 다음과 같은 형태들로 쓸 수 있습니다.       – 근사 posterior 간 KL divergence         S_B(x_{t+1}) ≃ D_KL [ q_{t+1}(θ)‖q_t(θ) ]       – 정보 이득(information gain) 관점         S_B(x_{t+1}) ≃ E_{q_{t+1}}[ log p(x_{t+1}|θ) ] − E_{q_t}[ log p(x_{t+1}|θ) ]       실제 응용에서는 이 둘을 섞거나, 지연 없이 빠르게 계산 가능한 근사공식을 씁니다.    4. 활용 분야       • 이상치·이상행동 탐지(Anomaly Detection)         – 순차적으로 들어오는 관측치마다 Surprise 점수를 매겨, 일정 임계값을 넘으면 ‘이상’으로 간주       • 능동학습(Active Learning)         – 모델이 가장 “놀랄 만한” 샘플을 골라 전문가에게 레이블링을 요청       • 강화학습(RL)에서 내재적 보상(intrinsic reward)         – 에이전트가 예상밖의 상태 전이에 놀라는 정도만큼 보상을 주어 탐험을 유도       • 시계열 이벤트 감지(Event Detection)         – 금융 시계열·IoT 센서 데이터 등 스트림에서 돌발 변화점(평균·분산 급변) 포착      5. 장점과 제약       장점         – 모델 신념의 변화량 자체를 측정하므로, 단순 확률 밀도(p(x)) 기반 이상치 탐지보다 더 <a href='https://sangseek.com/sangseeks/의미론/ko'>의미론</a>적         – 순차적 업데이트 구조로 실시간성 확보       제약         – 분포 근사 오차에 민감         – 하이퍼파라미터(근사 분포 형태, 업데이트 스텝 크기 등) 튜닝 필요         – 고차원 파라미터 공간에서는 계산 비용이 여전히 부담      요약하자면, Booth Surprise는 “새로운 데이터가 모델의 믿음을 얼마나 뒤흔드는가”를 실시간·근사적으로 정량화하려는 기법입니다. 정보 이론의 KL divergence 개념을 차용하되, 실제 머신러닝 파이프라인에 들어맞도록 근사 분포, 순차 업데이트, 저비용 계산 전략을 결합한 변형이라고 이해하면 됩니다.