트랜스포머의 마지막 포스팅 입니다. 피드 포워드 신경망, 잔차 연결, 레이어 정규화에 대해서 알아보겠습니다. 피드 포워드 신경망 (Feed Forward Neural Network)트랜스포머 모델 내의 각 인코더와 디코더 레이어는 피드포워드 신경망(FNN)을 포함하고 있습니다. FNN은 인코더와 디코더의 각 레이어에서 입력을 받아 비선형 변환을 수행하는 완전 연결 네트워크입니다. 구체적으로, FNN은 두 개의 선형 변환과 그 사이에 위치하는 활성화 함수(예: ReLU)로 구성됩니다.FNN은 어텐션 레이어의 출력에서 나온 정보를 처리하여, 각 위치의 숨겨진 상태를 독립적으로 업데이트 하여, 각 위치의 정보를 더 풍부하고 복잡한 표현으로 변환해주는 역할 수행합니다. 잔차 연결 (Residual Connec..
멀티 헤드 어텐션의 상세 동자 과정에 대해서 알아보겠습니다. 멀티 헤드 어텐션 (Multi-head Attention)멀티 헤드 어텐션을 간단히 말하면 셀프 어텐션을 여러번 수행하는것 입니다. 마스크드 멀티 헤드 어텐션은 멀티 헤드 어텐션과 동일한 과정을 수행하지만 타겟의 일부를 마스킹 처리하는것이 멀티 헤드 어텐션과 다른 점입니다. 멀티 헤드 어텐션은 수행 순서는 다음과 같습니다.각 헤드는 독립적으로 셀프 어텐션을 수행. 각 헤드는 동일한 입력에 대해 다른 Q,K,V 가중치 행렬을 사용하여 셀프 어텐션 계산모든 헤드의 셀프 어텐션 출력 결과를 이어 붙여 각 헤드의 분석결과 통합도출한 결과에 최종 가중치 W0를 곱하여 최종 출력 만듦결과적으로 결과는 각각의 헤드가 분석한 결과의 총 합멀티 헤드 어텐션은 ..
미 스탠포드대학교 (Stanford University)의 스탠포드 인간중심 인공지능연구소 ( Human-Centered Artificial Intelligence, HAI)에서 인공지능 인덱스 2024 (AI Index 2024)를 공개하였습니다. AI 분야의 10가지 시사점을 이야기하고 있는 500페이지 분량의 보고서 입니다. 10가지 시사점은 다음과 같습니다. 1. AI는 일부 작업에서 인간을 능가하지만 모든 작업에서 그렇지는 않습니다. AI는 이미지 분류, 시각적 추론 및 영어 이해 등 몇 가지 벤치마크에서 인간의 성능을 뛰어넘었습니다. 그러나 경쟁 수준의 수학, 시각적 상식 추론 및 계획과 같은 더 복잡한 작업에서는 뒤처져 있습니다. 2. 산업은 프론티어 AI 연구를 지속적으로 주도하고 있습니다..
이전 포스팅까지는 트랜스포머의 셀프 어텐션과 멀티 헤드 어텐션에 대해서 알아봤고, 이번 포스팅에서는 셀프 어텐션의 상세한 동작 과정에 대해서 알아보겠습니다. 셀프 어텐션의 계산 과정 (Self Attention in Detail)셀프 어텐션의 동작 과정을 벡터 계산 과정과 행렬 계산 과정으로 두 번에 걸쳐서 설명하겠습니다. 벡터 계산으로 셀프 어텐션 과정 알아보기 (Self Attention using Vector)셀프 어텐션을 계산하는 첫 단계는 인코더의 입력 벡터들로부터 각 단어에 대한 세 가지 벡터인 Query, Key, Value를 생성하는 것입니다.이는 각 단어의 임베딩을 훈련 과정에서 학습한 세 개의 행렬(WQ, WK, WV)에 곱하여 이루어집니다.예를 들어, x1을 WQ 가중치 행렬로 곱하면..
트랜스포머의 엔티티 중 가장 중요한 셀프 어텐션(Self Attention)과 멀티 헤드 어텐션(Multi-head Attention)에 대해 알아보겠습니다. 이번 포스팅에서는 어텐션, 셀프 어텐션, 멀티 헤드 어텐션에 대해서 대략적으로 설명하고, 셀프 어텐션과 멀티 헤드 어텐션의 동작 과정은 다음 포스팅에서 자세하게 설명하겠습니다. 어텐션 (Attention)어텐션(Attention)은 시퀀스 데이터를 처리하는 데 사용되는 기계 학습 기법입니다. 이 방법은 특히 시퀀스 형태의 데이터, 예를 들어 자연어 문장이나 시계열 데이터와 같은 연속된 정보를 다룰 때 효과적입니다. 어텐션 메커니즘은 시퀀스 내 각 요소(예: 문장 속의 각 단어)의 중요도를 평가하고, 이 중요도에 기반해 각 요소에 가중치를 부여합니다..
이번 포스팅 부터는 트랜스포머의 구성 요소에 대해서 상세하게 알아 볼 예정입니다. 상세 구성 요소의 첫번째는 트랜스포머의 입력과 출력 입니다. 이전 포스팅(https://jkim83.tistory.com/508)에서 트랜스포머의 훈련과 예측 단계를 설명하면서 어떤 입력이 들어오면 어떤 출력이 나오는지 살펴보았습니다. 이번 포스팅은 입력값으로 어떤 형식의 값이 들어오며, 출력은 어떤 형태로 되는지 좀 더 상세하게 알아보겠습니다. 트랜스포머의 입력과 출력 (Transformer Input and Output)트랜스포머의 입력은 인풋 임베딩(Input Embedding)과 포지셔널 인코딩(Positional Encoding)으로 구성되어 있으며, 해당 과정을 거쳐 인코더의 입력으로 들어갑니다.인풋 임베딩 (I..
Comment