머신러닝알고리즘: Gradient Descent의 원리와 종류는 무엇인가요?

_____

Q1. Gradient Descent(경사 하강법)이란 무엇인가요?
A1. 경사 하강법은 비용 함수(cost function)의 기울기(gradient)를 이용해 함수의 최솟값(또는 최대값)을 찾는 최적화 알고리즘입니다. 머신러닝에서는 모델 파라미터(가중치·편향)가 비용 함수를 최소화하도록 반복적으로 업데이트하는 데 쓰입니다.

Q2. 경사 하강법의 기본 원리는 어떻게 되나요?
A2.
1. 임의의 초기 파라미터 값을 설정
2. 현재 파라미터에서 비용 함수의 기울기(∂J/∂θ)를 계산
3. 파라미터를 기울기의 반대 방향으로 일정 크기(학습률)만큼 이동: θ ← θ – η·∂J/∂θ
4. 비용 함수 값이 충분히 작아지거나 기울기의 변화가 작아질 때까지 반복

Q3. 학습률(learning rate, η)의 역할과 설정 방법은?
A3.
- 역할: 한 번의 파라미터 업데이트에서 이동하는 크기를 결정
- 너무 작으면 수렴 속도가 느리고, 너무 크면 발산하거나 최적점 근처를 진동
- 설정 방법:
• 경험적 튜닝(grid search, random search)
• 학습 중 점진적으로 감소(learning rate decay)
• 적응적 학습률 기법(Adagrad, RMSProp, Adam) 활용

Q4. 경사 하강법의 주요 종류는 무엇인가요?
A4.
1. 배치 경사 하강법(Batch GD)
2. 확률적 경사 하강법(Stochastic GD, SGD)
3. 미니배치 경사 하강법(Mini-batch GD)

Q5. 각 방법의 특징과 장단점은 무엇인가요?
A5.
1. 배치 GD

- 특징: 전체 학습 데이터를 한 번에 사용해 기울기 계산
- 장점: 방향이 안정적이고, 수렴 위치가 일정
- 단점: 대규모 데이터에서 메모리 부담·연산량 큼
2. SGD
- 특징: 한 개(또는 소수)의 샘플로 기울기 계산 후 즉시 업데이트
- 장점: 빠른 업데이트, 지역 최솟값 탈출 가능성 높음
- 단점: 비용 함수가 불규칙하게 진동하여 수렴이 불안정
3. 미니배치 GD
- 특징: 작게 나눈 배치(보통 16~256개 샘플)로 기울기 계산
- 장점: 메모리와 수렴 속도 간 균형, GPU 활용에 적합
- 단점: 배치 크기 설정에 따라 성능 편차

Q6. 경사 하강법 변형 기법(모멘텀, Adam 등)은 무엇이며 왜 사용하는 건가요?
A6.
- 모멘텀(Momentum): 과거 기울기를 일정 비율 유지해 관성효과를 부여, 진동 완화·수렴 속도 향상
- 네스테로프 가속 경사(NAG): 모멘텀 적용 전 미리 기울기를 계산해 더욱 정확한 업데이트
- Adagrad: 자주 등장하는 파라미터의 학습률을 줄이고, 드문 파라미터의 학습률을 늘림
- RMSProp: Adagrad의 학습률 급격 감소 문제 보완, 과거 기울기의 지수이동평균 사용
- Adam: 모멘텀 + RMSProp 결합, 1차·2차 모멘텀을 사용해 강건하고 빠른 수렴

Q7. 경사 하강법을 적용할 때 주의할 점은 무엇인가요?
A7.
- 비용 함수의 형태: 비선형·고차원일수록 국소최솟값·사구체(flat region) 문제 주의
- 파라미터 초기화: 너무 크거나 작은 값은 수렴 지연·발산 유발
- 학습률 스케줄링: 고정 비율보다 점진 감소 또는 적응적 기법 권장
- 배치 크기 선택: 메모리·연산 속도·일반화 성능 사이 균형 고려
- 정규화(regularization): 과적합 방지 위해 L1·L2 규제 또는 드롭아웃 병행
- 모니터링: 학습 곡선(loss, accuracy) 관찰해 조기 종료(early stopping) 활용

머신러닝알고리즘: 데이터 증강(data augmentation)의 개념은?

머신러닝알고리즘: Decision Boundary와 Margin의 의미는?

Gradient Descent(경사 하강법)은 기계학습에서 모델의 손실 함수(Loss Function)를 최소화하기 위해 사용되는 대표적인 최적화 알고리즘입니다.

손실 함수가 매개변수(가중치) 벡터 w에 대해 연속적이고 미분 가능하다고 가정할 때, 손실 함수의 기울기(Gradient)가 가리키는 방향은 “가장 빠르게 손실이 증가하는 방향”이므로, 이의 반대 방향으로 매개변수를 조금씩 이동시키면서 손실 값을 점진적으로 줄여 나가는 방식입니다.

이때 한 번에 이동하는 크기를 학습률(learning rate)이라고 부르며, 너무 크면 발산하고 너무 작으면 수렴 속도가 너무 느려지는 trade-off가 있습니다.

경사 하강법의 기본 원리는 다음과 같습니다.

1. 초기 가중치 w₀를 임의로 설정한다.

2. 현재 가중치 wᵏ에서 손실 함수 L(wᵏ)의 기울기 ∇L(wᵏ)를 계산한다.

3. 가중치를 wᵏ₊₁ = wᵏ – η·∇L(wᵏ) 방식으로 업데이트한다(η는 학습률).

4. 손실이 충분히 작아지거나 기울기 크기가 임계값 이하가 될 때까지 2~3 과정을 반복한다.

이 기본 아이디어를 바탕으로 데이터 처리 방식이나 업데이트 빈도, 학습률 스케줄링, 모멘텀(momentum) 도입 여부 등에 따라 다양한 변형이 고안되었습니다.

주요 종류를 크게 세 가지 “데이터 배치(batch)” 관점과, 학습률 적응(adaptive learning rate) 관점으로 나누어 살펴보면 다음과 같습니다.

1. 데이터 배치 관점의 분류 가. 배치 경사 하강법(Batch Gradient Descent) 모든 학습 데이터를 한꺼번에 사용해 손실 함수의 기울기를 계산하고 매개변수를 한 번에 업데이트하는 방식입니다.

장점: 전체 데이터에 대한 정확한 기울기를 이용하기 때문에 안정적 업데이트가 가능하고, 이론적으로 수렴 성질 분석이 비교적 쉽습니다.

단점: 데이터가 많을수록 한 번 업데이트하는 데 계산량이 크고 메모리 부담이 커지며, 중간중간 빠른 학습 진행 상황을 확인하기 어렵습니다.

나. 확률적 경사 하강법(Stochastic Gradient Descent, SGD) 전체 데이터 대신 임의로 하나(또는 소수)의 샘플을 뽑아 그 샘플에 대한 손실 기울기를 계산하고 즉시 매개변수를 업데이트합니다.

장점: 계산량이 경량화되어 빠르게 업데이트할 수 있고, 매 반복마다 샘플 간 편차에 의해 손실 경사가 흔들려 오히려 지역 최솟값을 탈출하는 데 도움이 될 수 있습니다.

단점: 업데이트가 불안정하게 진동할 수 있어 수렴을 위해 학습률을 점진적으로 감소시키거나 보정을 넣어야 합니다.

다. 미니배치 경사 하강법(Mini-batch Gradient Descent) 전체 데이터를 몇 개씩 묶음(mini-batch)으로 나누어, 각 묶음마다 기울기를 계산하고 업데이트합니다.

장점: 배치 GD에 비해 계산 비용이 작고, SGD에 비해 업데이트가 덜 요동쳐 하드웨어(특히 GPU) 병렬 처리에 적합합니다.

단점: 배치 크기, 학습률 조정이 필요하며, 너무 작은 배치나 너무 큰 배치 모두 학습 안정성·속도 측면에서 trade-off가 있습니다.

2. 학습률 적응 및 가속(Accelerated/Adaptive) 기법 가. 모멘텀(Momentum) 이전 기울기 방향을 일정 비율로 누적해 관성 효과를 주는 방식입니다.

업데이트 규칙: vᵗ = β·vᵗ⁻¹ + (1–β)·∇L(wᵗ⁻¹) wᵗ = wᵗ⁻¹ – η·vᵗ 여기서 β는 모멘텀 계수(보통 0.9 내외)로, 이력 기울기를 얼마나 반영할지 결정합니다.

관성 덕분에 좁고 긴 골짜기 형태의 최적화 문제에서 진동을 줄이고 수렴 속도를 높일 수 있습니다.

나. 네스터로프 가속 경사(Nesterov Accelerated Gradient) 모멘텀과 비슷하지만, 일종의 “미리보기” 개념을 도입해 기울기를 계산할 때 이미 모멘텀으로 이동한 위치에서 기울기를 평가합니다.

이로써 모멘텀에서 발생할 수 있는 오버슈팅(overshooting)을 줄이고 더 정확한 방향으로 수렴을 돕습니다.

다. AdaGrad(Adaptive Gradient) 각 매개변수마다 지금까지의 기울기 제곱합을 누적해 학습률을 자동으로 조정합니다.

자주 업데이트된 파라미터는 학습률이 작아지고, 자주 업데이트되지 않은 파라미터는 학습률이 커지는 효과가 있습니다.

단점: 누적 제곱합이 계속 커지기 때문에 결국에는 학습률이 지나치게 작아져 학습이 멈출 수 있습니다.

라. RMSProp(Root Mean Square Propagation) AdaGrad의 학습률 소진 문제를 해결하기 위해 지수 이동 평균(EWA, Exponential Weighted Average) 방식으로 과거 기울기 제곱합을 지수 감쇠하며 관리합니다.

과거 정보를 지수적으로 감소시키므로 학습 초반과 후반에 모두 안정적인 학습률 적응이 가능합니다.

마. Adam(Adaptive Moment Estimation) RMSProp와 모멘텀을 결합한 형태로, 1차 모멘트(기울기의 지수 이동 평균)와 2차 모멘트(기울기 제곱의 지수 이동 평균)를 모두 추적해 보정합니다.

업데이트 규칙에 편향 보정(term bias correction)도 포함되어 있어 실험적으로 매우 빠르고 안정적인 수렴 성능을 보이는 경우가 많아, 딥러닝 분야에서 가장 널리 사용됩니다.

이처럼 경사 하강법은 “기울기를 따라 내려간다”는 단순한 원리를 바탕으로, 사용 가능한 데이터 규모, 계산 자원, 모델 특성, 손실 함수의 형태 등에 맞춰 여러 변형 알고리즘으로 발전해 왔습니다.

각 기법마다 장단점이 있으므로 실제 기계학습 프로젝트에서는 데이터 크기, 모델 복잡도, 하드웨어 환경을 고려해 적절한 변형을 선택하고, 학습률 스케줄링이나 정규화 기법 등을 함께 사용해 최적화 성능을 극대화하는 것이 핵심입니다.

작성자: 김민희 [비회원] | 작성일자: 10개월 전
조회수: 139 | 댓글: 0 | 좋아요: 0 | 싫어요: 0

내용이 부정확하다면 싫어요를 클릭해주세요.

수정