수정하기 - 머신러닝알고리즘: Gradient Descent의 원리와 종류는 무엇인가요?

닉네임

비밀번호

제목

내용 [이미지 업로드는 권한이 있는 사람만 가능. 하단 카톡으로 연락]

Gradient Descent(경사 하강법)은 기계학습에서 모델의 손실 함수(Loss Function)를 최소화하기 위해 사용되는 대표적인 최적화 알고리즘입니다. 손실 함수가 매개변수(가중치) 벡터 w에 대해 연속적이고 미분 가능하다고 가정할 때, 손실 함수의 기울기(Gradient)가 가리키는 방향은 “가장 빠르게 손실이 증가하는 방향”이므로, 이의 반대 방향으로 매개변수를 조금씩 이동시키면서 손실 값을 점진적으로 줄여 나가는 방식입니다. 이때 한 번에 이동하는 크기를 학습률(learning rate)이라고 부르며, 너무 크면 발산하고 너무 작으면 수렴 속도가 너무 느려지는 trade-off가 있습니다.      경사 하강법의 기본 원리는 다음과 같습니다.    1. 초기 가중치 w₀를 임의로 설정한다.    2. 현재 가중치 wᵏ에서 손실 함수 L(wᵏ)의 기울기 ∇L(wᵏ)를 계산한다.    3. 가중치를 wᵏ₊₁ = wᵏ – η·∇L(wᵏ) 방식으로 업데이트한다(η는 학습률).    4. 손실이 충분히 작아지거나 기울기 크기가 임계값 이하가 될 때까지 2~3 과정을 반복한다.      이 기본 아이디어를 바탕으로 데이터 처리 방식이나 업데이트 빈도, 학습률 스케줄링, 모멘텀(momentum) 도입 여부 등에 따라 다양한 변형이 고안되었습니다. 주요 종류를 크게 세 가지 “데이터 배치(batch)” 관점과, 학습률 적응(adaptive learning rate) 관점으로 나누어 살펴보면 다음과 같습니다.    1. 데이터 배치 관점의 분류      가. 배치 경사 하강법(Batch Gradient Descent)        모든 학습 데이터를 한꺼번에 사용해 손실 함수의 기울기를 계산하고 매개변수를 한 번에 업데이트하는 방식입니다.        장점: 전체 데이터에 대한 정확한 기울기를 이용하기 때문에 안정적 업데이트가 가능하고, 이론적으로 수렴 성질 분석이 비교적 쉽습니다.        단점: 데이터가 많을수록 한 번 업데이트하는 데 계산량이 크고 메모리 부담이 커지며, 중간중간 빠른 학습 진행 상황을 확인하기 어렵습니다.      나. 확률적 경사 하강법(Stochastic Gradient Descent, SGD)        전체 데이터 대신 임의로 하나(또는 소수)의 샘플을 뽑아 그 샘플에 대한 손실 기울기를 계산하고 즉시 매개변수를 업데이트합니다.        장점: 계산량이 경량화되어 빠르게 업데이트할 수 있고, 매 반복마다 샘플 간 편차에 의해 손실 경사가 흔들려 오히려 지역 최솟값을 탈출하는 데 도움이 될 수 있습니다.        단점: 업데이트가 불안정하게 진동할 수 있어 수렴을 위해 학습률을 점진적으로 감소시키거나 보정을 넣어야 합니다.      다. 미니배치 경사 하강법(Mini-batch Gradient Descent)        전체 데이터를 몇 개씩 묶음(mini-batch)으로 나누어, 각 묶음마다 기울기를 계산하고 업데이트합니다.        장점: 배치 GD에 비해 계산 비용이 작고, SGD에 비해 업데이트가 덜 요동쳐 하드웨어(특히 GPU) 병렬 처리에 적합합니다.        단점: 배치 크기, 학습률 조정이 필요하며, 너무 작은 배치나 너무 큰 배치 모두 학습 안정성·속도 측면에서 trade-off가 있습니다.    2. 학습률 적응 및 가속(Accelerated/Adaptive) 기법      가. 모멘텀(Momentum)        이전 기울기 방향을 일정 비율로 누적해 관성 효과를 주는 방식입니다.        업데이트 규칙:          vᵗ = β·vᵗ⁻¹ + (1–β)·∇L(wᵗ⁻¹)          wᵗ = wᵗ⁻¹ – η·vᵗ        여기서 β는 모멘텀 계수(보통 0.9 내외)로, 이력 기울기를 얼마나 반영할지 결정합니다. 관성 덕분에 좁고 긴 골짜기 형태의 최적화 문제에서 진동을 줄이고 수렴 속도를 높일 수 있습니다.      나. 네스터<a href='https://sangseek.com/sangseeks/로프/ko'>로프</a> 가속 경사(Nesterov Accelerated Gradient)        모멘텀과 비슷하지만, 일종의 “미리보기” 개념을 도입해 기울기를 계산할 때 이미 모멘텀으로 이동한 위치에서 기울기를 평가합니다.        이로써 모멘텀에서 발생할 수 있는 오버슈팅(overshooting)을 줄이고 더 정확한 방향으로 수렴을 돕습니다.      다. AdaGrad(Adaptive Gradient)        각 매개변수마다 지금까지의 기울기 제곱합을 누적해 학습률을 자동으로 조정합니다. 자주 업데이트된 파라미터는 학습률이 작아지고, 자주 업데이트되지 않은 파라미터는 학습률이 커지는 효과가 있습니다.        단점: 누적 제곱합이 계속 커지기 때문에 결국에는 학습률이 지나치게 작아져 학습이 멈출 수 있습니다.      라. RMSProp(Root Mean Square Propagation)        AdaGrad의 학습률 소진 문제를 해결하기 위해 지수 이동 평균(EWA, Exponential Weighted Average) 방식으로 과거 기울기 제곱합을 지수 감쇠하며 관리합니다.        과거 정보를 지수적으로 감소시키므로 학습 초반과 후반에 모두 안정적인 학습률 적응이 가능합니다.      마. Adam(Adaptive Moment Estimation)        RMSProp와 모멘텀을 결합한 형태로, 1차 모멘트(기울기의 지수 이동 평균)와 2차 모멘트(기울기 제곱의 지수 이동 평균)를 모두 추적해 보정합니다.        업데이트 규칙에 편향 보정(term bias correction)도 포함되어 있어 실험적으로 매우 빠르고 안정적인 수렴 성능을 보이는 경우가 많아, 딥러닝 분야에서 가장 널리 사용됩니다.    이처럼 경사 하강법은 “기울기를 따라 내려간다”는 단순한 원리를 바탕으로, 사용 가능한 데이터 규모, 계산 자원, <a href='https://sangseek.com/sangseeks/모델 특성/ko'>모델 특성</a>, 손실 함수의 형태 등에 맞춰 여러 변형 알고리즘으로 발전해 왔습니다. 각 기법마다 장단점이 있으므로 실제 기계학습 프로젝트에서는 데이터 크기, 모델 복잡도, 하드웨어 환경을 고려해 적절한 변형을 선택하고, 학습률 스케줄링이나 정규화 기법 등을 함께 사용해 최적화 성능을 극대화하는 것이 핵심입니다.