
이번 포스팅에서는 BERT의 구조에 대해서 설명하겠습니다. BERT의 구조 개요트랜스포머의 인코더 부분만 사용두 가지 방의 사전학습 방법 이용Masked Language Model (MLM): 문장 중간을 마스킹 처리하고 해당 단어를 맞추는 학습Next Sentence Prediction (NSP): 두 문장이 관계가 있는지 없는지를 학습이를 통해 문장의 앞 뒤 문맥에 따른 예측이 가능입력값은 토큰 임베딩, 문장 세그먼트 임베딩, 포지션 임베딩을 합친 벡터로 최대 길이는 512 BERT 모델의 구조BERT는 트랜스포머의 인코더 부분만을 사용한 언어 모델 입니다. BERT는 주어진 텍스트의 문맥을 양방향으로 이해하는데 특화되어 있습니다.BERT 모델은 크기에 따라 두 가지 주요 버전을 제공합니다. BERT..

이번 포스팅에서는 트랜스포머의 구조에 대해서 알아보겠습니다.우선 최상위 구조를 알아보고, 각 구성요소에 대해서 자세히 설명하도록 하겠습니다. 트랜스포머의 구조트랜스포머는 크게 인코더와 디코더로 구성되어 있습니다.인코더 (Encoder): 소스 시퀀스의 정보를 압축해 디코더로 보내는 역할디코더 (Decoder): 인코더가 보내 준 소스 시퀀스 정보를 받아서 타깃 시퀀스를 생성 인코더는 입력 시퀀스(예: 텍스트)를 처리하고, 이 시퀀스의 정보를 컨텍스트로 변환하는 역할을 합니다. 트랜스포머의 인코더는 여러 개의 인코더 레이어 층으로 구성됩니다. 트랜스포머 논문에서는 6개의 인코더 층을 제안했지만, 인코더 층의 개수는 성능에 크게 영향을 주는 요소는 아닙니다.디코더는 인코더로부터 얻은 정보를 바탕으로 출력 시..

LLM 알고리즘의 시초 트랜스포머(Transformer)에 대해서 알아보곘습니다.트랜스포머의 개요 부터 시작해서 트랜스포머의 주요 엔티티 및 알고리즘까지 포스팅이 이어지겠습니다. 트랜스포머2017년 Google Research에서 발표한 자연어 처리 모델"Attention is All You Need"라는 논문에서 처음 제안논문 제목처럼 Attention 매커니즘을 이용주로 언어 번역, 문장 생성, 요약 등의 작업에 사용 트랜스포머의 장점병렬 처리 가능: RNN과 달리 트랜스포머는 시퀀스 내 모든 요소를 동시에 처리할 수 있어, 효율적이고 빠른 학습이 가능장거리 의존성 학습: 문장 내 멀리 떨어진 요소들 간의 관계도 잘 파악확장성: 큰 모델과 데이터에도 잘 확장되어, 더 정확한 결과를 낼 수 있음 트랜스..
Comment