[개발자를 위한 LLM] 트랜스포머 구조 (Transformer High-level Architecture)

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

By KJJ88

IT/Large Language Model

2024. 3. 28. 19:52

1. 트랜스포머의 구조

2. 인코더의 상세 구성

3. 디코더의 상세 구성

이번 포스팅에서는 트랜스포머의 구조에 대해서 알아보겠습니다.

우선 최상위 구조를 알아보고, 각 구성요소에 대해서 자세히 설명하도록 하겠습니다.

1. 트랜스포머의 구조

트랜스포머는 크게 인코더와 디코더로 구성되어 있습니다.

인코더 (Encoder): 소스 시퀀스의 정보를 압축해 디코더로 보내는 역할
디코더 (Decoder): 인코더가 보내 준 소스 시퀀스 정보를 받아서 타깃 시퀀스를 생성

인코더는 입력 시퀀스(예: 텍스트)를 처리하고, 이 시퀀스의 정보를 컨텍스트로 변환하는 역할을 합니다. 트랜스포머의 인코더는 여러 개의 인코더 레이어 층으로 구성됩니다. 트랜스포머 논문에서는 6개의 인코더 층을 제안했지만, 인코더 층의 개수는 성능에 크게 영향을 주는 요소는 아닙니다.

디코더는 인코더로부터 얻은 정보를 바탕으로 출력 시퀀스(예: 번역된 텍스트)를 생성합니다. 디코더 역시 여러 개의 디코더 레이어 층으로 구성됩니다.

2. 인코더의 상세 구성

인코더는 입력 시퀀스(예: 텍스트)를 처리하고, 이 시퀀스의 정보를 컨텍스트로 변환하는 역할을 하며, 각각의 인코더는 셀프 어텐션과 피드 포워드 뉴럴 네트워크로 구성됩니다.

인코더의 입력은 먼저 셀프 어텐션(Self-attention) 레이어를 통과합니다. 이 레이어는 각 단어가 입력 시퀀스 내의 다른 단어와의 관계를 이해 하도록 돕습니다.

셀프 어텐션의 출력은 피드 포워드 신경망(Feed Forward Neural Network)에 입력됩니다. 완전히 동일한 피드 포워드 네트워크가 각 위치에 독립적으로 적용됩니다.

이러한 레이어들 사이에는 노멀라이제이션(Normalization) 단계가 있으며, 각 레이어의 입력과 출력은 잔차 연결(Residual connection)을 통해 더해집니다.

3. 디코더의 상세 구성

디코더는 인코더로부터 얻은 정보를 바탕으로 출력 시퀀스(예: 번역된 텍스트)를 생성합니다. 디코더는 셀프 어텐션과 피드 포워드 뉴럴 네트워크 두 레이어를 모두 가지고 있지만, 그 사이에는 디코더가 입력 문장의 관련 부분에 집중할 수 있도록 돕는 어텐션 레이어가 있습니다.