이전 포스팅까지 트랜스포머 모델에 대해서 알아보았습니다.
이번 포스팅에서는 트랜스포머 기반 모델인 GPT와 BERT에 대해서 간략하게 알아보겠습니다.
GPT와 BERT
GPT (Generative Pre-trained Transformer)와 BERT (Bidirectional Encoder Representations from Transformers)는 둘 다 자연어 처리(NLP)에서 널리 사용되는 트랜스포머 기반 모델입니다.
GPT는 트랜스포머의 인코더 부분만을 사용한 모델이고, BERT는 트랜스포머의 디코더만을 사용한 모델입니다.
GPT와 BERT 각각의 특징에 대해서 알아보겠습니다.
GPT (Generative Pretrained Transformer)
GPT는 Gnerative Pretrained Transformer의 약자로 이름 그대로 트랜스포머 기반 모델입니다. GPT는 OpenAI에서 공개한 모델로 트랜스포머의 디코더만을 사용한 모델입니다.
2018년에 GPT-1을 시작으로 2019년에는 15억개의 파라미터를 가진 GPT-2를 발표하였으며, GPT-3를 거쳐 현재는 GPT-4o까지 공개하였습니다.
GPT의 특징은 다음과 같습니다.
GPT의 특징
- 트린스포머의 디코더 아키텍처가 기반
- 일방향 (unidirectional) 언어 모델링으로 문자 왼쪽에서 오른쪽으로 순차적 계산
- 이전 단어가 주어졌을 때 다음 단어가 무엇인지 맞히는 과정으로 훈련
- 텍스트 생성, 대화형AI, 글쓰기 지원 같은 문장 생성 작업에 강점
BERT (Bidirectional Encoder Representations from Transformers)
BERT는 구글에서 2017년에 발표한 논문 "Attention is All You Need"에서 소개 언어 모델로 Bidirectional Encoder Representations from Transformers의 약어 입니다. BERT는 트랜스포머의 인코더만을 사용한 모델입니다.
페이스북AI에서 발표한 BERT의 성능을 개선한 RoBERTa, 경량화된 BERT인 ALBERT와 같은 다양한 변형 모델이 발표되었습니다.
BERT의 특징은 다음과 같습니다.
BERT의 특징
- 트랜스포머의 인코더 아키텍처가 기반
- 양방향 (bidirectional) 언어 모델링을 통해 빈칸 앞뒤 문맥을 모두 살필 수 있음
- 문장 중간에 빈칸을 만들고 해당 빈칸에 어떤 단어가 적절할지 맞히는 과정을 통한 훈련
- 문장 분류, 개체명 인식, 질문 응답과 같은 문장 의미 추출하는 작업에 강함
지금까지 트랜스포머 기반 모델인 GPT와 BERT에 대해 간략하게 알아보았습니다.
다음 포스팅에서는 BERT에 대해서 자세히 알아보도록 하겠습니다.
트랜스포머
2. 트랜스포머 구조 (Transformer High-level Architecture)
3. 트랜스포머 구조 상세 (Transformer Detailed Architecture)
4. 트랜스포머 훈련과 예측 단계 (Transformer Learning and Inference Step)
5. 트랜스포머 입력과 출력 (Transformer Input and Output)
6. 어텐션, 셀프 어텐션, 멀티 헤드 어텐션 개요 (Transformer Attention, Self Attention, Multi-head Attention)
7. 셀프 어텐션 상세 동작 과정 (Transformer Self Attention Detailed Process)
8. 멀티 헤드 어텐션 상세 동작 과정 (Transformer Multi-head Attention Detailed Process)
BERT
Comment