머신러닝알고리즘: 활성화 함수(activation function)의 종류에는 어떤 것이 있나요?

_____

Q1. 활성화 함수(Activation Function)란 무엇인가요?
A1. 뉴런(또는 노드) 출력값을 결정하는 수학적 함수입니다. 입력 신호의 합(또는 가중합)을 비선형 변환하여 다음 계층으로 전달함으로써, 심층 신경망이 복잡한 함수·패턴을 학습할 수 있게 돕습니다.

Q2. 왜 활성화 함수가 필요한가요?
A2.
- 비선형성 도입: 선형 회귀처럼 입력과 출력이 선형 관계일 때는 층을 깊게 쌓아도 한 장(layer)과 기능적으로 다를 바 없습니다.
- 표현력 강화: 비선형성을 통해 복잡한 입력-출력 매핑, 고차원 특성, 다양한 패턴을 모델링할 수 있습니다.
- 학습 안정화: 적절한 함수 선택으로 기울기 소실(vanishing)·폭주(exploding)를 완화시키거나, 수렴 속도를 향상시킬 수 있습니다.

Q3. 대표적인 활성화 함수 종류는 무엇인가요?
A3.
1. 계단 함수(Step Function)
2. 시그모이드(Sigmoid)
3. 하이퍼볼릭 탄젠트(Tanh)
4. 렐루(ReLU)
5. 누수형 렐루(Leaky ReLU)·PReLU
6. 지수 선형 유닛(ELU)·SELU
7. 소프트플러스(Softplus)
8. 소프트맥스(Softmax)
9. Swish·GELU·Mish 등 최신 변형

Q4. 시그모이드(Sigmoid) 함수의 정의와 특징은?
A4.
- 정의: f(x)=1/(1+exp(−x))
- 출력 범위: (0, 1)
- 장점: 출력이 확률처럼 해석 가능, 출력 구간이 제한적
- 단점: 입력 절댓값이 커지면 기울기 소실 발생, 중앙값(0)이 아니어서 학습 시 편향 발생 가능

Q5. 하이퍼볼릭 탄젠트(Tanh) 함수의 정의와 특징은?
A5.
- 정의: f(x)=tanh(x)=(exp(x)−exp(−x))/(exp(x)+exp(−x))
- 출력 범위: (−1, 1)
- 장점: 0을 중심으로 대칭, 시그모이드에 비해 수렴 속도 우수
- 단점: 여전히 입력 절댓값이 크면 기울기 소실 위험

Q6. 렐루(ReLU) 함수의 정의와 특징은?

A6.
- 정의: f(x)=max(0, x)
- 장점: 계산이 간단·빠름, 기울기 소실 문제 완화, 희소 활성화(sparse activation)
- 단점: 음영역(x<0)에서 기울기 0 → ‘죽은 뉴런(dead neuron)’ 문제 발생 가능

Q7. 렐루 변형 함수들은 어떤 것이 있나요?
A7.
1. Leaky ReLU: f(x)=max(αx, x) (α∈(0,1), 보통 0.01)
2. PReLU: Leaky ReLU의 α를 학습 가능한 파라미터로 설정
3. ELU(Exponential Linear Unit):
– f(x)=x (x>0), α(exp(x)−1) (x≤0)
– 음영역에서 지수 함수 형태로 완만한 변화
4. SELU(Scaled ELU): ELU에 자동정규화 특성 부여한 버전

Q8. 소프트맥스(Softmax) 함수는 언제 사용하나요?
A8.
- 다중 클래스 분류(task) 출력층에 주로 사용
- 정의: f_i(x)=exp(x_i) / Σ_j exp(x_j)
- 각 클래스에 대한 확률 분포로 해석 가능(Σ_i f_i=1)

Q9. 기타 최신 활성화 함수 예시는?
A9.
1. Swish: f(x)=x·sigmoid(βx) (β는 학습 또는 고정)
2. GELU(Gaussian Error Linear Unit): x·Φ(x) (Φ는 정규분포 CDF)
3. Mish: x·tanh(softplus(x))
– 이들은 기울기 흐름을 부드럽게 하고 성능을 개선하는 사례가 보고됨

Q10. 활성화 함수 선택 시 고려사항은?
A10.
- 문제 유형: 이진·다중 분류, 회귀 등
- 학습 안정성: 기울기 소실·폭주 여부
- 계산 비용: 대규모 모델에서의 효율성
- 출력 해석: 확률 분포나 실수값 여부
- 경험적 성능: 데이터셋·모델 아키텍처에 따른 검증 결과

위 FAQ를 참고해 문제 상황과 모델 구조에 최적화된 활성화 함수를 선택하시기 바랍니다.

머신러닝알고리즘: Natural Language Processing의 기본 개념은?

머신러닝알고리즘: RNN(Recurrent Neural Network)의 특징은 무엇인가요?

활성화 함수(Activation Function)란 인공신경망이 입력 신호의 가중합을 출력으로 변환할 때 비선형성을 부여하여 복잡한 패턴을 학습하도록 돕는 함수입니다.

대표적인 활성화 함수를 몇 가지 범주로 나누어 살펴보겠습니다.

1. 계단 함수 (Step Function) 가장 단순한 형태로, 입력이 임계값(threshold)보다 크면 1, 작으면 0을 출력합니다.

초창기 퍼셉트론(perceptron)에서는 이 함수를 사용해 입력을 이진 분류했습니다.

• 장점: 개념이 단순하고 출력을 이진화하여 분류 문제에 직관적임 • 단점: 기울기가 0 또는 무한대가 되어 학습(역전파)이 불가능하며, 연속적인 값 예측에 부적합

2. 선형 함수 (Linear Function) f(x)=ax+b 형태로 입력과 출력을 1:1로 연결하는 함수입니다.

• 장점: 구현이 매우 간단하며 회귀 문제에서 바로 예측치를 구할 때 사용 가능 • 단점: 층을 깊게 쌓아도 전체는 여전히 선형조합에 불과해 비선형 문제를 풀 수 없음

3. 시그모이드 계열 3-1. 로지스틱 시그모이드(Logistic Sigmoid) f(x)=1/(1+e^(−x))이며 출력 범위가 (0,1)입니다.

바이너리 분류의 출력층으로 자주 쓰입니다.

• 장점: 확률처럼 해석 가능한 출력, 부드러운 기울기 • 단점: 입력이 크거나 작을 때 기울기가 0에 수렴하는 소실 기울기(vanishing gradient) 문제 3-2. 하이퍼볼릭 탄젠트(Tanh) f(x)=tanh(x)이므로 출력 범위가 (−1,1)입니다.

시그모이드보다 평균이 0에 가깝다는 점이 장점입니다.

• 장점: 출력의 평균이 0 근처여서 학습 속도가 다소 빨라짐 • 단점: 여전히 입력 절댓값이 크면 기울기가 소실되는 문제 3-3. 소프트플러스(Softplus) f(x)=ln(1+e^x) 형태이며 ReLU의 부드러운(smooth) 버전으로 볼 수 있습니다.

• 장점: 항상 미분 가능하고 음의 영역에도 완만한 기울기가 남아 있음 • 단점: 계산량이 비교적 크고, 음성 출력이 매우 작아질 수 있음 3-4. 소프트사인(Softsign) f(x)=x/(1+|x|)로, 시그모이드·tanh보다는 완만하게 포화(saturation)됩니다.

4. ReLU 계열 4-1. ReLU(Rectified Linear Unit) f(x)=max(0,x) 형태로, 음수는 0, 양수는 그대로 통과시킵니다.

• 장점: 구현이 매우 간단하고 계산이 빠르며, 양수 영역에서는 기울기 소실이 없음 • 단점: 음수 영역에서 기울기가 0이어서 ‘죽은 ReLU(dead ReLU)’ 현상이 발생할 수 있음 4-2. Leaky ReLU 음수 영역에도 작지만 일정한 기울기(예: 0.01x)를 주어 죽은 뉴런을 방지합니다.

• 장점: 음수 영역에도 활성화가 유지되어 학습 소실 방지 • 단점: 기울기 계수를 정해야 한다는 번거로움 4-3. PReLU(Parametric ReLU) Leaky ReLU의 음수 기울기를 학습 가능한 파라미터로 두어, 네트워크가 최적의 음수 기울기를 학습합니다.

4-4. ELU(Exponential Linear Unit) 음수 영역은 α(e^x−1), 양수 영역은 x를 출력합니다.

음수 영역 출력이 0 이하에서 포화되지만 기울기는 유지됩니다.

• 장점: 평균 출력값을 0에 가깝게 만들어 학습 안정화 • 단점: 지수 함수 계산으로 인해 다소 느림 4-5. SELU(Scaled ELU) ELU에 스케일링 인자를 곱해 층을 깊게 쌓아도 자동으로 출력이 평균 0, 분산 1로 수렴하도록 설계된 함수입니다.

5. 소프트맥스(Softmax) 다중 클래스 분류의 출력층에서 주로 사용합니다.

각 클래스에 대한 실수값을 지수 함수로 변환한 뒤 총합으로 나누어, 모든 클래스 확률의 합이 1이 되도록 합니다.

• 장점: 분류 문제에서 확률 분포를 직접 출력 • 단점: 클래스 수가 많을 때 계산량 증가, 수치적으로 e^x 연산으로 인해 언더/오버플로우 가능

6. 최근 제안된 활성화 함수 6-1. Swish f(x)=x·sigmoid(βx) 형태로 Google에서 제안했습니다.

입력 x와 sigmoid의 곱으로, ReLU보다 더 부드러운 기울기를 갖는 것으로 알려졌습니다.

6-2. GELU(Gaussian Error Linear Unit) f(x)=x·Φ(x) (Φ는 표준정규분포 누적분포함수)이며, Transformer 계열 모델에서 사용됩니다.

입력을 가우시안 함수로 부분적으로 스케일링하여 학습 안정성과 성능 개선 효과가 있습니다.

각 활성화 함수는 장단점이 있으므로, 네트워크의 구조나 문제의 특성(이진/다중 분류, 회귀, 텍스트·음성·영상 처리 등), 계산 비용 등을 고려해 적절히 선택하거나 상황에 따라 여러 가지를 실험해 보는 것이 일반적입니다.

작성자: 이지영 [비회원] | 작성일자: 10개월 전
조회수: 171 | 댓글: 0 | 좋아요: 0 | 싫어요: 0

내용이 부정확하다면 싫어요를 클릭해주세요.

수정