텍스트 데이터 다루기
단어 임베딩 이해하기단어 임베딩(Word Embedding)은 LLM(대규모 언어 모델) 성공의 기초가 된 아이디어로, 단어나 텍스트를 벡터로 표현하려는 시도에서 시작되었습니다.임의의 데이터를 벡터로 표현하는 것을 광범위하게 임베딩(Embedding)이라고 부르며, 단어 벡터, 은닉 벡터, 잠재 벡터 등과 혼용되기도 합니다.토큰이나 단어를 벡터로 바꾼 것을 단어 임베딩이라고 부릅니다.텍스트 인베딩은 하나의 토큰, 문장, 단락 또는 문서 전체를 벡터로 바꿀 수 있지만, 이 책에서는 주로 토큰을 벡터로 바꾸는 데 중점을 둡니다.단어 임베딩을 만드는 전문 알고리즘(예: Word2Vec)이 있지만, 대부분의 LLM은 모델 훈련 과정에서 단어 임베딩을 자체적으로 학습합니다.임베딩 벡터는 보통 100차원, 200차..
Developer/IT 도서
2026. 1. 3. 13:25