728x90
728x90


"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."


[개발자를 위한 LLM] 트랜스포머 셀프 어텐션 상세 동작 과정 (Transformer Self Attention Detailed Process)
IT/Large Language Model 2024. 4. 16. 19:38

이전 포스팅까지는 트랜스포머의 셀프 어텐션과 멀티 헤드 어텐션에 대해서 알아봤고, 이번 포스팅에서는 셀프 어텐션의 상세한 동작 과정에 대해서 알아보겠습니다. 셀프 어텐션의 계산 과정 (Self Attention in Detail) 셀프 어텐션의 동작 과정을 벡터 계산 과정과 행렬 계산 과정으로 두 번에 걸쳐서 설명하겠습니다. 벡터 계산으로 셀프 어텐션 과정 알아보기 (Self Attention using Vector) 셀프 어텐션을 계산하는 첫 단계는 인코더의 입력 벡터들로부터 각 단어에 대한 세 가지 벡터인 Query, Key, Value를 생성하는 것입니다. 이는 각 단어의 임베딩을 훈련 과정에서 학습한 세 개의 행렬(WQ, WK, WV)에 곱하여 이루어집니다. 예를 들어, x1을 WQ 가중치 행렬로..

728x90
728x90