728x90
728x90


"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."


[개발자를 위한 LLM] 트랜스포머 구조 (Transformer High-level Architecture)
IT/Large Language Model 2024. 3. 28. 19:52

이번 포스팅에서는 트랜스포머의 구조에 대해서 알아보겠습니다. 우선 최상위 구조를 알아보고, 각 구성요소에 대해서 자세히 설명하도록 하겠습니다. 트랜스포머의 구조 트랜스포머는 크게 인코더와 디코더로 구성되어 있습니다. 인코더 (Encoder): 소스 시퀀스의 정보를 압축해 디코더로 보내는 역할 디코더 (Decoder): 인코더가 보내 준 소스 시퀀스 정보를 받아서 타깃 시퀀스를 생성 인코더는 입력 시퀀스(예: 텍스트)를 처리하고, 이 시퀀스의 정보를 컨텍스트로 변환하는 역할을 합니다. 트랜스포머의 인코더는 여러 개의 인코더 레이어 층으로 구성됩니다. 트랜스포머 논문에서는 6개의 인코더 층을 제안했지만, 인코더 층의 개수는 성능에 크게 영향을 주는 요소는 아닙니다. 디코더는 인코더로부터 얻은 정보를 바탕으로..

[개발자를 위한 LLM] 트랜스포머(Transformer) 개요
IT/Large Language Model 2024. 3. 18. 16:24

LLM 알고리즘의 시초 트랜스포머(Transformer)에 대해서 알아보곘습니다. 트랜스포머의 개요 부터 시작해서 트랜스포머의 주요 엔티티 및 알고리즘까지 포스팅이 이어지겠습니다. 트랜스포머 2017년 Google Research에서 발표한 자연어 처리 모델 "Attention is All You Need"라는 논문에서 처음 제안 논문 제목처럼 Attention 매커니즘을 이용 주로 언어 번역, 문장 생성, 요약 등의 작업에 사용 트랜스포머의 장점 병렬 처리 가능: RNN과 달리 트랜스포머는 시퀀스 내 모든 요소를 동시에 처리할 수 있어, 효율적이고 빠른 학습이 가능 장거리 의존성 학습: 문장 내 멀리 떨어진 요소들 간의 관계도 잘 파악 확장성: 큰 모델과 데이터에도 잘 확장되어, 더 정확한 결과를 낼 ..

728x90
728x90