attention layer (1) 썸네일형 리스트형 Attention Mechanism (어텐션 메커니즘)의 거의 모든것(1) 01. seq2seq의 문제점 이전 게시글에서는 입력 시퀀스에 대한 모든 정보를 하나의 고정된 크기의 벡터(context vector)로 인코딩한다음, 이를 디코더로 전달하여 다른 도메인의 시퀀스를 출력하는 seq2seq에 대해 정리하였다. seq2seq는 vanilla RNN보다 시퀀스 데이터를 더욱 잘 처리할 수 있지만, 여전히 한계가 존재한다. 1️⃣입력 시퀀스의 길이에 상관없이, 항상 고정된 크기의 벡터에 모든 정보를 압축하기 때문에 이 과정에서 정보 손실이 발생한다. (bottleneck으로 작용) 2️⃣입력 시퀀스의 길이가 길어지면 RNN에서 발생된 기울기 소실(vanising gradient) 문제가 여전히 존재한다. -> 위와 같은 seq2seq의 문제점을 보완하기 위해 Attention .. 이전 1 다음