본문 바로가기

implement_neural_network_structure

(5)
Xception GoogLeNet 과 ResNet 의 아이디어를 합쳤지만 인셉션 모듈은 깊이별 분리 합성곱 층 depthwise separable convolution layer 라는 특별한 층으로 대체 일반적인 합성곱 층이 공간상의 패턴과 채널 사이의 패턴을 동시에 잡기 위해 필터를 사용한다. 분리 합성곱 층은 공간 패턴과 채널 사이 패턴을 분리하여 모델링할 수 이싿고 가정한다. 이 층은 두 개의 부분으로 구성, 첫 번째 부분은 하나의 공간 필터를 각 입력 특성 맵에 적용한다. 두 번째 부분은 채널 사이 패턴만 조사한다. 분리 합성곱 층은 입력 채널마다 하나의 공간 필터만 가지기 때문에 입력층과 같이 채널이 너무 적은 층 다음에 사용하는 것을 피해야 한다. 이런 이유로 2개의 일반 합성곱 층으로 시작한다. 이후 분리 ..
ResNet 잔차 네트워크 residual network 152 개 층으로 구성된 극도로 깊은 CNN 의 사용, 더 적은 파라미터를 사용해 점점 더 깊은 네트워크로 모델을 구성하는 일반적인 트렌드를 만들었다. 이런 깊은 네트워크를 훈련시킬 수 있는 핵심 요소는 스킵 연결 (숏컷 연결)이다. 어떤 층에 주입되는 신호가 상위 층의 출력에도 더해진다. 신경망을 훈련시킬 때 목적함수를 모델링하는 것이 목표이다. 만약 입력 x 를 네트워크의 출력에 더한다면 네트워크는 h(x) 대신 f(x) = h(x) - x 를 학습하게 될 것이다 이를 잔차 학습 residual learning 이라고 한다. 일반적인 신경망을 초기화할 때는 가중치가 0에 가깝기 때문에 네트워크도 0에 가까운 값을 출력한다. 스킵 연결을 추가하면 이 네트워크..
GoogLeNet 인셉션 모듈 inception module 이라는 서브 네트워크를 가지고 있어 효과적으로 파라미터를 사용한다. 처음에 입력 신호가 복사되어 네 개의 다른 층에 주입된다. 모든 합성곱 층은 ReLU 활성화 함수의 사용, 두 번째 합성곱 층은 각기 다른 커널 크기를 사용하여 다른 크기의 패턴을 찾는다. 모든 층은 스트라이드 1 과 same 패딩을 사용하므로 출력의 높이와 너비가 모두 입력과 같다. 이렇게 하면 모든 출력을 깊이 연결 층에서 깊이 방향으로 연결할 수 잇다. 즉, 위 쪽 네 개의 합성곱 층에서 만든 특성 맵을 쌓는다. 인셉션 모듈이 1*1 커널의 합성곱 층을 가지는 이유는 한 번에 하나의 픽셀만 처리하는데 이는 세 개의 목적을 가지고 있다. 공간상의 패턴을 잡을 수 없지만 깊이 차원을 따라 놓인..
AlexNet 과대적합을 줄이기 위해 두 가지 규제 기법을 사용, 드롭아웃의 비율을 50% 로 적용, 두 번째는 훈련 데이터의 데이터 증식의 수행 C1 과 C3 층의 ReLU 단계 후에 바로 LRN Local Response Normalizatoin 이라고 부르는 경쟁적인 정규화 단계 사용, 가장 강하게 활성화된 뉴런이 다른 특성 맵에 있는 같은 위치의 뉴런을 억제한다. 이는 특성 맵을 가기 특별하게 다른 것과 구분되게 하고, 더 넓은 시각에서 특징을 탐색하도록 만들어 일반화 성능을 향상시킨다. b_i 는 특성 맵, u행, v 열에 위치한 뉴런의 정규화된 출력이다. a_i 는 ReLU 단계를 지나고 정규화 단계는 거치기 전인 뉴런의 활성화 값 k, alpha, beta, r 은 하이퍼 파라미터 k 는 편향, r 은 깊..
LeNet-5 가장 널리 알려진 CNN 구조 1998 년 얀 르쿤, 손글시 숫자 인식에 널리 사용 층 종류 특성 맵 크기 커널 크기 스트라이드 활성화 함수 출력 완전 연결 - 10 - - RBF F6 완전 연결 - 84 - - tanh C5 합성곱 120 1-1 5-5 1 tanh S4 평균 풀링 16 5-5 2-2 2 tanh C3 합성곱 16 10-10 5-5 1 tanh S2 평균 풀링 6 14-14 2-2 2 tanh C1 합성곱 6 28-28 5-5 1 tanh 입력 입력 1 32-32 - - - 28 * 28 입력에 제로 패딩되고 정규화된다. 출력층은 가중치 벡터를 행렬 곱하는 대신, 각 뉴런에서 입력 벡터와 가중치 벡터 사이의 유클리드 거리를 출력한다. 각 출력은 이미지가 얼마나 특정 숫자 클래스에 속하는..