트랜스포머의 엔티티 중 가장 중요한 셀프 어텐션(Self Attention)과 멀티 헤드 어텐션(Multi-head Attention)에 대해 알아보겠습니다. 이번 포스팅에서는 어텐션, 셀프 어텐션, 멀티 헤드 어텐션에 대해서 대략적으로 설명하고, 셀프 어텐션과 멀티 헤드 어텐션의 동작 과정은 다음 포스팅에서 자세하게 설명하겠습니다. 어텐션 (Attention)어텐션(Attention)은 시퀀스 데이터를 처리하는 데 사용되는 기계 학습 기법입니다. 이 방법은 특히 시퀀스 형태의 데이터, 예를 들어 자연어 문장이나 시계열 데이터와 같은 연속된 정보를 다룰 때 효과적입니다. 어텐션 메커니즘은 시퀀스 내 각 요소(예: 문장 속의 각 단어)의 중요도를 평가하고, 이 중요도에 기반해 각 요소에 가중치를 부여합니다..
이번 포스팅 부터는 트랜스포머의 구성 요소에 대해서 상세하게 알아 볼 예정입니다. 상세 구성 요소의 첫번째는 트랜스포머의 입력과 출력 입니다. 이전 포스팅(https://jkim83.tistory.com/508)에서 트랜스포머의 훈련과 예측 단계를 설명하면서 어떤 입력이 들어오면 어떤 출력이 나오는지 살펴보았습니다. 이번 포스팅은 입력값으로 어떤 형식의 값이 들어오며, 출력은 어떤 형태로 되는지 좀 더 상세하게 알아보겠습니다. 트랜스포머의 입력과 출력 (Transformer Input and Output)트랜스포머의 입력은 인풋 임베딩(Input Embedding)과 포지셔널 인코딩(Positional Encoding)으로 구성되어 있으며, 해당 과정을 거쳐 인코더의 입력으로 들어갑니다.인풋 임베딩 (I..
이번 포스팅에서는 트랜스포머가 어떤 순서로 훈련과 예측을 수행하는지 알아보겠습니다. 트랜스포머 훈련과 예측 스텝 1트랜스포머 모델이 '어제 카페 갔었어'라는 한글 문장을 영어로 번역하는 과정을 살펴보겠습니다. 이 과정을 통해 트랜스포머의 훈련과 예측이 어떤 과정을 거치는지 이해할 수 있습니다. - 인코더 입력: 한글 소스 시퀀스 전체- 디코더 입력: 인코더의 출력 + 토큰 (시작 스페셜 토큰)- 최종 출력: 영어 번역 출력 I 이 단계에서 인코더는 한글 문장을 처리해 디코더로 전달하고, 디코더는 이 정보와 시작 토큰을 바탕으로 첫 번째 영어 단어 'I'를 예측합니다.좀 더 자세히 설명하면 인코더는 입력 소스 시퀀스를 압축해 디코더로 보내고, 디코더는 인코더에서 보내온 정보와 현재 디코더 입력을 모두 고..
이번 포스팅에서는 트랜스포머의 인코더, 디코더에 대해서 더 상세하게 알아보겠습니다. 트랜스포머의 상세 구조트랜스포머는 크게 인코더와 디코더 두 부분으로 나뉩니다. 인코더, 디코더는 여러 개의 동일한 레이어로 구성되어 있으며, 이러한 레이어들이 N번 겹쳐 있는 구조를 가집니다(Nx). 이제 트랜스포머의 각 구성요소에 대해서 좀 더 자세히 알아보겠습니다. 포지셔널 인코딩 (Positional Encoding)트랜스포머 모델은 입력 시퀀스를 일련의 벡터로 변환해 처리합니다. 그러나 모델은 순서 정보를 자동으로 감지하지 못하기 때문에, 순서를 명시하지 않으면 'this is a cat'과 'cat a is this'를 구별할 수 없습니다. 즉, 모델에게 두 시퀀스가 동일한 벡터 표현을 가질 수 있음을 구분할..
이번 포스팅에서는 트랜스포머의 구조에 대해서 알아보겠습니다.우선 최상위 구조를 알아보고, 각 구성요소에 대해서 자세히 설명하도록 하겠습니다. 트랜스포머의 구조트랜스포머는 크게 인코더와 디코더로 구성되어 있습니다.인코더 (Encoder): 소스 시퀀스의 정보를 압축해 디코더로 보내는 역할디코더 (Decoder): 인코더가 보내 준 소스 시퀀스 정보를 받아서 타깃 시퀀스를 생성 인코더는 입력 시퀀스(예: 텍스트)를 처리하고, 이 시퀀스의 정보를 컨텍스트로 변환하는 역할을 합니다. 트랜스포머의 인코더는 여러 개의 인코더 레이어 층으로 구성됩니다. 트랜스포머 논문에서는 6개의 인코더 층을 제안했지만, 인코더 층의 개수는 성능에 크게 영향을 주는 요소는 아닙니다.디코더는 인코더로부터 얻은 정보를 바탕으로 출력 시..
LLM 알고리즘의 시초 트랜스포머(Transformer)에 대해서 알아보곘습니다.트랜스포머의 개요 부터 시작해서 트랜스포머의 주요 엔티티 및 알고리즘까지 포스팅이 이어지겠습니다. 트랜스포머2017년 Google Research에서 발표한 자연어 처리 모델"Attention is All You Need"라는 논문에서 처음 제안논문 제목처럼 Attention 매커니즘을 이용주로 언어 번역, 문장 생성, 요약 등의 작업에 사용 트랜스포머의 장점병렬 처리 가능: RNN과 달리 트랜스포머는 시퀀스 내 모든 요소를 동시에 처리할 수 있어, 효율적이고 빠른 학습이 가능장거리 의존성 학습: 문장 내 멀리 떨어진 요소들 간의 관계도 잘 파악확장성: 큰 모델과 데이터에도 잘 확장되어, 더 정확한 결과를 낼 수 있음 트랜스..
Comment