개념 정리

LSTM Long Short Term Memory

명징직조지훈 2022. 11. 3. 11:19

순환 신경망은 은닉층을 거친 겨로갓값을 재사용한다는 특징으로 그래디언트 소실, 폭주 문제가 발생할 수 있다. LSTM 은 그래디언트 폭주나 소실 문제를 해결하기 위해 만든 방법

결괏값을 다음 시점으로 넘어갈 때 결괏값을 넘길지 말지 결정하는 단계가 추가된다.

LSTM 의 전체 구조,

입력 게이트 input gate 는 셀 상태를 업데이트하는 역할을 담당한다.

입력 게이트에서는 it 와 gt 를 생성한다.

it 는 입력층 데이터 벡터 xt에 가중치 Wxi 를 곱한 값과 은닉 유닛인 h_t-1 에 가중치 W_hi를 곱한 값을 더한다. 그리고 이 값에 편향을 더한 후 시그모이드 함수를 적용하여 구할 수 있다.

gt 도 입력층 데이터 벡터에 가중치 Wxg 를 곱한 후 은닉 유닛에는 가중치 Whg 를 곱한 후 더한다. 이 값에 bg를 더한 후 하이퍼볼릭 탄젠트를 취해 gt를 구할 수 있다.

 

삭제 게이트는 통과할 정보와 억제할 정보를 결정한다. 

 

출력 게이트는 은닉 유닛의 출력값을 생성한다. 

 

t 시점에서의 셀 상태를 수식으로 표현

이전 시점의 셀 상태에서 삭제 게이트 출력값을 원소곱, 입력 게이트를 통해 생성된 i, g 를 원소 곱, 두 값을 원소합하여 최종 셀 상태 ct를 구한다.
 
마지막으로 현재 타임 스텝에서의 은닉 뉴런을 출력한다.
 

출력 게이트 값과 해당 시점의 셀 상태의 하이퍼볼릭 탄제트 값을 원소 곱한 값이다.