가장 기본적인 수준에서 하나의 신경망은 단순한 함수들로 이루어진 합성 함수를 계산함으로써 복잡한 함수의 결과를 산출하는 하나의 계산 그래프이다.
심층 학습의 위력은 상당 부분 다수의 비선형 함수들의 합성을 반복함으로써 모형의 표현력을 키울 수 있다는 점에서 비롯된다.
매개변수가 많으면 신경망의 수용력이 증가하지만, 자료 집합이 그에 걸맞게 크지 않다면 과대적합이 발생한다.
심층 학습의 위력의 상당 부분은 특정 종류의 함수들의 합성이 반복되면 신경망의 표현력이 커지고, 그러면 학습에 필요한 매개변수 공간이 줄어든다는 사실에서 비롯된다.
1.5.1 비선형 활성화 함수의 중요성
선형 활성화 함수만 사용하는 신경망은 그 층을 더 늘려도 이득이 없다.
선형 분리가능이 아닌 자료들은 선형 활성화 함수만 사용하는 신경망으로는 그 자료를 완벽하게 분류할 수 없다.
은닉층들의 활성화 함수가 ReLU 이고 다음과 같은 두 특징을 학습하는 경우를 생각

이러한 학습 목표들은 입력에서 은닉층으로의 가중치들을 적절하게 설정함으로써, 그리고 ReLU 활성화 단위를 적용함으로써 달성할 수 있다.
ReLU 단위는 음수 값들을 0 으로 고정한느 threshold 함수의 역할을 한다.
어떤 의미로, 첫 층의 임무는 문제의 해를 선형 분류기가 찾을 수 있게 하는 표현 학습 representation learning 을 수행하는 것이라 할 수 있다.
즉, 신경망에 하나의 선형 출력층을 추가함으로써 훈련 견본들을 완벽하게 분류할 수 있게 되었다. 여기서 핵심은 이러한 선형 분리가능을 보장하는 데 비선형 ReLU 함수가 결정적인 역할을 한다는 것이다.
활성화 함순느 자료의 비선형 사상을 가능하게 하며, 이에 의해 내장된 점들이 선형 분리가능이 된다.
'신경망과 심층학습' 카테고리의 다른 글
4. 일반화 능력을 위한 심층 학습 모형의 훈련 (0) | 2023.07.04 |
---|---|
2. 얕은 신경망을 이용한 기계 학습 (0) | 2023.07.04 |
1.4 신경망 훈련의 실질적인 문제점들 (0) | 2023.06.16 |
1.3 역전파를 이용한 신경망 훈련 (1) | 2023.06.16 |
1.2 신경망의 기본 구조 (5) | 2023.06.16 |