


미세 튜닝의 목표는 다음과 같습니다:
일반적인 챗봇 사용(예: ChatGPT)에서는 모델에게 지시문을 추가하여 ("아래 텍스트가 스팸인지 아니냐고 물어보고 예/아니오로 대답해 줘") 응답을 유도할 수 있습니다. 하지만 토큰 샘플링 과정에는 확률적 요소가 있기 때문에 대답이 항상 '예' 또는 '아니오'로만 나오지 않을 수 있습니다.
반면, 분류 미세 튜닝은 전문적인 분류 작업을 장기간 실행하기 위해, 스팸/넌스팸과 같이 정해진 두 개의 클래스 레이블만 출력하도록 LLM을 만드는 과정입니다.

분류 작업을 위해 모델의 아키텍처를 수정해야 합니다. 특히 **마지막 출력층(선형 출력층)**을 수정하는 것이 핵심입니다.
모델 구조 변경 상세
◦ 768개의 입력을 받아서 2개의 출력 뉴런을 갖는 선형 계층(Linear layer)으로 마지막 층을 교체합니다.
◦ 이진 분류임에도 불구하고 뉴런을 두 개 사용하는 이유는, 일반적으로 GPT 모델의 옵티마이저나 손실 함수 세팅이 다중 분류(Multi-class Classification)를 기반으로 되어 있기 때문에, 이를 유지하며 훈련하는 것이 더 유용하기 때문입니다.
어떤 토큰의 출력을 사용할 것인가
모델이 여러 개의 토큰(가령 10개)을 입력받으면, 각 토큰에 대해 768차원의 벡터가 출력됩니다. 이 중 어떤 토큰의 출력을 사용하여 분류 예측을 수행할지가 중요합니다.
일반적으로는 마지막 토큰의 벡터를 사용합니다. 그 이유는 인과 마스킹(Causal Masking) 처리 방식 때문에, 가장 뒤쪽에 있는 토큰이 앞선 전체 텍스트에 대한 문맥 정보를 가장 많이 잘 담고 있기 때문입니다. 첫 번째 토큰은 미래 토큰에 대한 정보를 참고하지 못하지만, 마지막 토큰은 이전 모든 토큰의 문맥 정보를 충분히 기록하고 있습니다.
| 어텐션 메커니즘 구현하기 (0) | 2025.11.28 |
|---|---|
| 레이블이 없는 데이터를 활용한 사전 훈련 (0) | 2025.11.28 |
| 텍스트 데이터 다루기 (0) | 2025.11.28 |
| 대규모 언어 모델 이해하기 (0) | 2025.11.28 |
| 아는 만큼 보이는 생성형 AI (0) | 2025.09.11 |
댓글 영역