수정하기 - 머신러닝알고리즘: 활성화 함수(activation function)의 종류에는 어떤 것이 있나요?

닉네임

비밀번호

제목

내용 [이미지 업로드는 권한이 있는 사람만 가능. 하단 카톡으로 연락]

활성화 함수(Activation Function)란 인공신경망이 입력 신호의 가중합을 출력으로 변환할 때 비선형성을 부여하여 복잡한 패턴을 학습하도록 돕는 함수입니다. 대표적인 활성화 함수를 몇 가지 범주로 나누어 살펴보겠습니다.    1. 계단 함수 (Step Function)       가장 단순한 형태로, 입력이 임계값(threshold)보다 크면 1, 작으면 0을 출력합니다. 초창기 퍼셉트론(perceptron)에서는 이 함수를 사용해 입력을 이진 분류했습니다.       • 장점: 개념이 단순하고 출력을 이진화하여 분류 문제에 직관적임       • 단점: 기울기가 0 또는 무한대가 되어 학습(역전파)이 불가능하며, 연속적인 값 예측에 부적합      2. 선형 함수 (Linear Function)       f(x)=ax+b 형태로 입력과 출력을 1:1로 연결하는 함수입니다.       • 장점: 구현이 매우 간단하며 회귀 문제에서 바로 예측치를 구할 때 사용 가능       • 단점: 층을 깊게 쌓아도 전체는 여전히 선<a href='https://sangseek.com/sangseeks/형조/ko'>형조</a>합에 불과해 비선형 문제를 풀 수 없음      3. 시그모이드 계열       3-1. 로지스틱 시그모이드(Logistic Sigmoid)       f(x)=1/(1+e^(−x))이며 출력 범위가 (0,1)입니다. 바이너리 분류의 출력층으로 자주 쓰입니다.       • 장점: 확률처럼 해석 가능한 출력, 부드러운 기울기       • 단점: 입력이 크거나 작을 때 기울기가 0에 수렴하는 소실 기울기(vanishing gradient) 문제            3-2. 하이퍼볼릭 탄젠트(Tanh)       f(x)=tanh(x)이므로 출력 범위가 (−1,1)입니다. 시그모이드보다 평균이 0에 가깝다는 점이 장점입니다.       • 장점: 출력의 평균이 0 근처여서 학습 속도가 다소 빨라짐       • 단점: 여전히 입력 절댓값이 크면 기울기가 소실되는 문제         3-3. 소프트플러스(Softplus)       f(x)=ln(1+e^x) 형태이며 ReLU의 부드러운(smooth) 버전으로 볼 수 있습니다.       • 장점: 항상 미분 가능하고 음의 영역에도 완만한 기울기가 남아 있음       • 단점: 계산량이 비교적 크고, 음성 출력이 매우 작아질 수 있음         3-4. 소프트사인(Softsign)       f(x)=x/(1+|x|)로, 시그모이드·tanh보다는 완만하게 <a href='https://sangseek.com/sangseeks/포화/ko'>포화</a>(saturation)됩니다.      4. ReLU 계열       4-1. ReLU(Rectified Linear Unit)       f(x)=<a href='https://sangseek.com/sangseeks/max/ko'>max</a>(0,x) 형태로, 음수는 0, 양수는 그대로 통과시킵니다.       • 장점: 구현이 매우 간단하고 계산이 빠르며, 양수 영역에서는 기울기 소실이 없음       • 단점: 음수 영역에서 기울기가 0이어서 ‘죽은 ReLU(dead ReLU)’ 현상이 발생할 수 있음         4-2. Leaky ReLU       음수 영역에도 작지만 일정한 기울기(예: 0.01x)를 주어 죽은 뉴런을 방지합니다.       • 장점: 음수 영역에도 활성화가 유지되어 학습 소실 방지       • 단점: 기울기 계수를 정해야 한다는 번거로움         4-3. PReLU(Parametric ReLU)       Leaky ReLU의 음수 기울기를 학습 가능한 파라미터로 두어, 네트워크가 최적의 음수 기울기를 학습합니다.         4-4. ELU(Exponential Linear Unit)       음수 영역은 α(e^x−1), 양수 영역은 x를 출력합니다. 음수 영역 출력이 0 이하에서 포화되지만 기울기는 유지됩니다.       • 장점: 평균 출력값을 0에 가깝게 만들어 학습 안정화       • 단점: 지수 함수 계산으로 인해 다소 느림         4-5. SELU(Scaled ELU)       ELU에 스케일링 인자를 곱해 층을 깊게 쌓아도 자동으로 출력이 평균 0, 분산 1로 수렴하도록 설계된 함수입니다.      5. 소프트맥스(Softmax)       다중 클래스 분류의 출력층에서 주로 사용합니다. 각 클래스에 대한 실수값을 지수 함수로 변환한 뒤 총합으로 나누어, 모든 클래스 확률의 합이 1이 되도록 합니다.       • 장점: 분류 문제에서 확률 분포를 직접 출력       • 단점: 클래스 수가 많을 때 계산량 증가, 수치적으로 e^x 연산으로 인해 언더/오버플로우 가능      6. 최근 제안된 활성화 함수       6-1. Swish       f(x)=x·sigmoid(βx) 형태로 Google에서 제안했습니다. 입력 x와 sigmoid의 곱으로, ReLU보다 더 부드러운 기울기를 갖는 것으로 알려졌습니다.       6-2. GELU(Gaussian Error Linear Unit)       f(x)=x·Φ(x) (Φ는 표준정규분포 누적분포함수)이며, Transformer 계열 모델에서 사용됩니다. 입력을 가우시안 함수로 부분적으로 스케일링하여 학습 안정성과 성능 개선 효과가 있습니다.      각 활성화 함수는 장단점이 있으므로, 네트워크의 구조나 문제의 특성(이진/다중 분류, 회귀, 텍스트·음성·영상 처리 등), 계산 비용 등을 고려해 적절히 선택하거나 상황에 따라 여러 가지를 실험해 보는 것이 일반적입니다.