[개발자를 위한 LLM] 트랜스포머 기반 모델 GPT, BERT

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

By KJJ88

IT/Large Language Model

2024. 5. 28. 19:45

1. GPT와 BERT

2. GPT (Generative Pretrained Transformer)

2.1. GPT의 특징

3. BERT (Bidirectional Encoder Representations from Transformers)

3.1. BERT의 특징

이전 포스팅까지 트랜스포머 모델에 대해서 알아보았습니다.

이번 포스팅에서는 트랜스포머 기반 모델인 GPT와 BERT에 대해서 간략하게 알아보겠습니다.

1. GPT와 BERT

GPT (Generative Pre-trained Transformer)와 BERT (Bidirectional Encoder Representations from Transformers)는 둘 다 자연어 처리(NLP)에서 널리 사용되는 트랜스포머 기반 모델입니다.

GPT는 트랜스포머의 인코더 부분만을 사용한 모델이고, BERT는 트랜스포머의 디코더만을 사용한 모델입니다.

GPT와 BERT 각각의 특징에 대해서 알아보겠습니다.

2. GPT (Generative Pretrained Transformer)

GPT는 Gnerative Pretrained Transformer의 약자로 이름 그대로 트랜스포머 기반 모델입니다. GPT는 OpenAI에서 공개한 모델로 트랜스포머의 디코더만을 사용한 모델입니다.

2018년에 GPT-1을 시작으로 2019년에는 15억개의 파라미터를 가진 GPT-2를 발표하였으며, GPT-3를 거쳐 현재는 GPT-4o까지 공개하였습니다.

GPT의 특징은 다음과 같습니다.

2.1. GPT의 특징

트린스포머의 디코더 아키텍처가 기반
일방향 (unidirectional) 언어 모델링으로 문자 왼쪽에서 오른쪽으로 순차적 계산
이전 단어가 주어졌을 때 다음 단어가 무엇인지 맞히는 과정으로 훈련
텍스트 생성, 대화형AI, 글쓰기 지원 같은 문장 생성 작업에 강점

3. BERT (Bidirectional Encoder Representations from Transformers)

BERT는 구글에서 2017년에 발표한 논문 "Attention is All You Need"에서 소개 언어 모델로 Bidirectional Encoder Representations from Transformers의 약어 입니다. BERT는 트랜스포머의 인코더만을 사용한 모델입니다.

페이스북AI에서 발표한 BERT의 성능을 개선한 RoBERTa, 경량화된 BERT인 ALBERT와 같은 다양한 변형 모델이 발표되었습니다.

BERT의 특징은 다음과 같습니다.