NLP에서의 사전 훈련(Pre-training)
2018년 딥 러닝 연구원 세바스찬 루더는 사전 훈련된 언어 모델의 약진을 보며 다음과 같은 말을 했다
사전 훈련된 단어 임베딩이 모든 NLP 실무자의 도구 상자에서 사전 훈련된 언어 모델로 대체되는 것은 시간 문제이다.
BERT와 같은 트랜스포머 계열의 모델들이 자연어 처리를 지배했던 19년과 20년을 회고하면 이말은 현실이 되었다
BERT 를 배우기 앞서 워드 임베딩에서부터 ELMo, 트랜스포머에 이르기까지 자연어 처리가 발전되어온 흐름 정리
사전 훈련된 워드 임베딩
워드 임베딩 방법론들
Word2Vec,FastText,GloVe..
어떤 태스크를 수행할 때 임베딩을 사용하는 방법으로는 크게 두 가지가 있다.
1. 임베딩 층을 랜덤 초기화하여 처음부터 학습하는 방법
2. 방대한 데이터로 Word2Vec 등과 같은 임베딩 알고리즘으로 사전에 학습된 임베딩 벡터들을 가져와 사용하는 방법.
문제점
이 두 가지 방법 모두 하나의 단어가 하나의 벡터값으로 맵핑되므로 문맥을 고려하지 못하여 다의어나 동음이의어를 구분하지 못하는 문제점이 있다.
한국어에는 '사과'라는 단어가 존재하는데 이 '사과'는 용서를 빈다는 의미로도 쓰이지만, 먹는 과일의 의미로도 사용된다.
그러나 임베딩 벡터는 사과라는 벡터에 하나의 벡터값을 맵핑하므로 이 두 가지 의미를 구분할 수 없었다.
이 한계는 사전 훈련된 언어 모델을 사용하므로서 극복할 수 있었다.
사전 훈련된 언어 모델




사전 훈련된 언어 모델의 이점
- 모델을 처음부터 훈련시키는 데 필요한 시간과 리소스를 절약
- 다양한 분야의 태스크에 적용 가능
마스크드 언어 모델(Masked Language Model, MLM)
입력 텍스트의 단어 집합의 15%의 단어를 랜덤으로 마스킹 한다.
마스킹이란 원래의 단어가 무엇이없는지 모르게 한다는 뜻
그리고 인공 신경마에게 이렇게 마스킹 된 단어들을 예측하도록함
문장 중간에 구멍을 뚫어놓고 구멍에 들어갈 단어들을 예측하게 하는 식이다.
예] '나는 [MASK]에 가서 그곳에서 빵과 [MASK]를 샀다'를 주고 [MASK]에 들어갈 단어를 맞추게 한다.
버트(Bidirectional Encoder Representations from Transformers, BERT)
2018년에 구글이 공개한 사전 훈련된 모델
BERT는 2018년에 공개되어 등장과 동시에 수많은 NLP 태스크에서 최고 성능을 보여주면서 명실공히 NLP의 한 획을 그은 모델로 평가받고 있다.
'AI > ML' 카테고리의 다른 글
| BERT (2) (0) | 2026.05.03 |
|---|---|
| BERT(1) (0) | 2026.05.02 |
| 트랜스포머 가계도 (0) | 2026.04.30 |
| 디코더 (Decoder) 구조 (0) | 2026.04.29 |
| 트랜스포머 - 잔차 연결(Residual connection)과 층 정규화(Layer Normalization) (0) | 2026.04.28 |