피드 포워드 네트워크 함수 -

ml_interview

피드 포워드 네트워크 함수 -

명징직조지훈 2024. 7. 16. 10:29

회귀와 분류의 선형 모델은 비선형 기저 함수 phi_j(x) 의 선형 결합을 바탕으로 하고 있으며, 다음형태를 취한다.

f() 는 분류의 경우 비선형 활성화 함수, 회귀의 경우 항등 함수

목표는 이 모델을 확장시켜 기저 함수 phi_j(x) 를 매개변수에 종속적이게 만들고 이 매개변수들이 계수 {w_j} 와 함께 훈련 단계에서 조절되도록 하는 것이다.

각각의 기저 함수는 그 자체가 입력값의 선형 결합들에 대한 비선형 함수이며, 이때 선형 결합에서의 계수들이 조절 가능한 매개변수다.

이를 바탕으로 기본적인 뉴럴 네트워크 모델을 만들 수 있다. 이 모델은 연쇄적인 함수 변환으로 표현할 수 있다.

입력변수 x_D 에 대한 선형 결합을 M 개 생성

j 는 1 ~ M, 위첨자 (1) 은 해당 매개변수들이 네트워크의 첫 번째 계층에 해당한다는 것을 나타낸다.

w_ji : 가중치

w_j0 : 편향

a : 활성도

각각의 선형 결합들은 미분 가능한 비선형 활성화 함수 h() 에 의해 변환된다.

z_j = h(a_j)

이 값들은 기저 함수들의 출력값에 해당,

k = 1 ~ K, K 는 출력값의 총 숫자, 네트워크의 두 번째 계층에 해당, w_k 는 편향 매개변수다.

출력 유닛 활성도는 적절한 활성화 함수를 통해 변환되어 네트워크 출력값의 집합을 내놓게 된다. 활성화 함수의 선택 문제 존재,

어떠한 출력 단위 활성화 함수의 선택 문제

가중치와 편향 매개변수들을 벡터 w 로 묶어 사용, 이 경우 뉴럴 네트워크 모델은 단순히 입력 변수 집합을 출력 변수 집합으로 연결하는 비선형 함수가 되며, 이때 이 함수는 조절 가능한 매개변수 벡터 w 에 따라 결정된다.

이는 확률적인 그래프 모델을 표현하는 것이 아님, 내부 노드들이 확률적 변수가 아닌, 결정적 변수들을 표현하는 것이기 때문,

뉴럴 네트워크에 확률적인 해석을 부여 가능,

뉴럴 네트워크 모델이 퍼셉트론 모델과 유사, 다층 퍼셉트론이라고 불리는 이유,

하지만 퍼셉트론의 경우 불연속적 비선형 계단 함수를 사용함, 뉴럴은 그렇지 않기 때문에 네트워크 매개변수에 대해 미분이 가능하다.

네트워크 상의 모든 은닉 유닛들에 대한 활성화 함수들이 선형이라면, 이러한 네트워크는 은닉 유닛이 없는 동일한 네트워크로 치환할 수 있다. 연속적인 선형 변환들로 구성된 변환은 그 자체가 선형 변환이기 때문

하지만 위와 같은 경우에도 은닉 유닛의 갯수가 입력, 출력의 개수보다 적을 경우 정보 손실로 인해 일반적인 선형 변환이 아니게 된다.

skip layer 의 사용, 원칙적으로 시그모이드 은닉 유닛을 사용하는 네트워크에서는 생략 계층 연결을 흉내내느느 것이 가능하다.

이는 은닉 유닛이 가용 범위 내에서 실제적으로 선형이 될 만큼 충분히 작은 가중치를 첫 번째 계층에서 사용하고, 은닉 유닛으로부터 출력값에 대해 충분히 큰 가중치값을 사용하는 방식으로 이를 보상함으로써 시행할 수 있다.

직접적 명시를 통해서도 사용 가능

네트워크 구조는 feed forward 구조로 한정되어야 한다. 입력값에 의해 출력값이 결정되는 것을 보장하기 위해, 그 구조상에 닫혀 있고 방향성 있는 순환 구조가 존재하지 말아야 한다는 것

뉴럴 네트워크는 보편적 근사기 universal approximator 라고도 일컫는다.

충분히 많은 은닉 유닛이 주어지면 밀집된 입력 영역에 대한 모든 연속 함수를 임의의 정확도로 근사할 수 있다.

이 결과는 다양한 은닉 유닛 활성화 함수에 대해 적용 가능,

하지만 다항 함수에 대해선 예외,

위 이론은 훈련 데이터로부터 적합한 매개변수들을 찾아내는 것이 중요한 문제라는 것을 상기시켜준다.

가중치-공간 대칭성

베이지안 모델과 비교해, 피드포워드 네트워크의 중요한 성질 중 하나는,

여러 가지의 서로 다른 가중 벡터 w 의 선택이 입력에서 출력으로의 같은 사상을 표현할 수 있다는 것이다.

2 계층 네트워크의 고려,

hidden unit, M, tanh activation function, ffn,

만약 특정 유닛에 먹여지는 모든 가중치와 편향의 부호를 반대로 바꾼다고 하면, 주어진 입력의 패턴에 대해서 은닉 유닛의 활성화 부호가 역전될 것이다.

tanh 가 홀함수이기 때문,

은닉 유닛에서 나가느느 모든 가중치들의 부호를 바꿈으로써 이 변환을 보상할 수 있다.

결과적으로 특정 가중치의 집하브이 부호를 바꿈에도 불구하고 네트워크로 표현되는 입력-출력 사상 함수는 변하지 않았다.

따라서 같은 사상에도 두 개의 서로 다른 가중치 벡터를 가지게 된다.

따라서 모든 주어진 가중치 벡터에 대해 2^M 개의 동일한 가중치 벡터가 존재하게 될 것

이는 교환에도 성립,

M! 2^M 가지수의 가중치-공간 대칭성을 가지게 된다.

실제 응용에서는 이러한 가중치 공간의 대칭성이 중요하지 않지만, 고려해야 하는 상황 또한 존재,