머신러닝알고리즘: 활성화 함수로 사용되는 ReLU의 장점은 무엇인가요?
_____1. Q: ReLU(Rectified Linear Unit)란 무엇인가요?
A: 입력 x가 0 이하일 때는 0, 0보다 클 때는 x를 그대로 출력하는 단순한 비선형 함수입니다. f(x)=max(0,x)로 정의되며, 신경망의 은닉층 활성화 함수로 널리 쓰입니다.
2. Q: ReLU가 다른 활성화 함수(sigmoid, tanh 등)에 비해 왜 선호되나요?
A:
1) 계산이 매우 단순(비교 연산만 사용)해 CPU/GPU에서 빠르게 수행
2) 양수 구간에서 미분값이 1로 일정해 역전파 시 기울기 소실(vanishing gradient)을 효과적으로 완화
3) 0 이하 구간은 뉴런 출력을 ‘0’으로 만들면서 자연스럽게 희소(sparse) 표현을 유도해 모델 일반화 성능 개선에 도움
3. Q: ReLU가 vanishing gradient 문제를 어떻게 줄이나요?
4. Q: ‘희소 표현(sparsity)’이란 무엇이며, ReLU가 어떻게 구현하나요?
A: 희소 표현은 활성화된 뉴런(출력이 0이 아닌 뉴런)이 전체 중 일부만 차지하는 특성입니다. ReLU는 음수 입력에 대해 출력을 0으로 고정해 많은 뉴런을 비활성화시키므로, 필터링 효과로 불필요한 잡음을 줄이고 특징 간 중복을 줄입니다.
5. Q: ReLU를 사용하면 학습 수렴 속도가 빨라지나요?
A: 네. 비선형 구간이 두 개(x≤0, x>0)로 단순해 역전파 시 계산이 간단하고, 기울기 소실이 적어 가중치 업데이트가 효율적입니다. 결과적으로 동일한 에포크(epoch) 동안 더 빠르게 손실이 감소합니다.
6. Q: 하드웨어·라이브러리 최적화 측면의 이점은?
A: max(0,x) 연산은 분기(branch) 없이 처리 가능해 SIMD, GPU의 병렬 처리에 최적화됩니다. 또한 대부분 딥러닝 프레임워크(CuDNN, MKL 등)에서 ReLU 연산을 특수 커널로 구현해 추가 가속을 지원합니다.
7. Q: ReLU를 쓸 때 주의할 점은 없나요?
A: ReLU의 장점이지만, 음수 입력 구간이 모두 0이 되어 일부 뉴런이 영구적으로 죽는(Dead Neuron) 현상이 발생할 수 있습니다. 이를 보완하기 위해 Leaky ReLU, PReLU, ELU 같은 변형 함수가 함께 쓰이기도 합니다.
작성자:
이승우 [비회원]
| 작성일자: 11개월 전
2025-07-22 08:22:27
조회수: 202 | 댓글: 0 | 좋아요: 0 | 싫어요: 0
조회수: 202 | 댓글: 0 | 좋아요: 0 | 싫어요: 0
내용이 부정확하다면 싫어요를 클릭해주세요.