Deep Contextualized Word Representations
2024. 11. 15. 18:41ㆍLLM/Paper Reading
1. Bidirectional Language Models
foward language Models
input sentence가 N개의 토큰으로 이루어져 있다고 할 때, 의 정보를 가지고 문맥에 대한 정보를 얻고 토큰 의 확률을 계산 함.
아래 예시로 설명할 수 있음.
- 질문과 컨텍스트의 상황:
- 질문: "What do you love most?"
- 컨텍스트: "I Love Language"
- 정답 확률:
- 현재 토큰이 "Love"이며, 다음 토큰을 예측하는 시점
: 현재 토큰이라고 표현 정의 : 마지막 층 L-th layer에서 생성된 벡터로, tk = 와 이전 문맥 정보를 포함한 문맥 표현
이 예시에서 문맥 정보라고 표현 정의 : 다음 토큰 확률
계산:- 모델은 문맥 정보를 기반으로 다음 토큰 (즉, "Language")의 조건부 확률을 계산 함.
- 계산방법:
다음 토큰 확률 (tk+1에 대한 조건부 확률의 곱 )=Softmax(가중치⋅문맥정보+bias)
- 정확한 의미:
- 이 벡터는 Softmax 함수를 통해 다음 토큰 (즉, "Language")의 확률을 계산하는 데 사용됩니다.
backward language Models
반대 방향도 방법은 같음.
대신 미래의 문맥 으로 이전 토큰 을 예측한다.
- Bidirectional Language Model은 양방향 정보를 사용해 현재 토큰을 예측하거나 문맥 표현을 생성합니다.
따라서, biLM은 "I"와 "Language"의 문맥 정보를 사용해 "Love"를 예측한다고 할 수 있음.
2. ELMo
foward language Models
각 토큰 tk에 대해 Rk는 해당 토큰의 모든 층에서 얻어진 표현을 모아놓은 집합입니다
- ELMo는 양방향 모델(biLM)**이지만, 순방향과 역방향 모델이 별도로 학습되고, 최종적으로 출력이 결합됩니다. 따라서, 각각의 모델은 단방향이라고 말할 수 있습니다.
- 반면, **BERT는 진정한 양방향 학습(Deep Bidirectional)**을 수행하며, 한 번의 학습 과정에서 양방향 정보를 동시에 처리합니다.
- "ELMo는 각각의 단방향(순방향, 역방향) 언어 모델의 출력값을 concat해서 사용하기 때문에 하나의 모델 자체는 단방향이다." → 부분적으로 맞는 표현입니다.
- 다만, ELMo 전체적으로는 두 단방향 모델을 결합한 양방향 모델로 동작하며, BERT의 Deep Bidirectional과 차이가 있다는 점이 정확히 맞습니다.