Deep Contextualized Word Representations

2024. 11. 15. 18:41LLM/Paper Reading

1. Bidirectional Language Models


foward language Models

input sentence가 N개의 토큰으로 이루어져 있다고 할 때, 의 정보를 가지고 문맥에 대한 정보를 얻고 토큰 의 확률을 계산 함.

아래 예시로 설명할 수 있음.

  1. 질문과 컨텍스트의 상황:
    • 질문: "What do you love most?"
    • 컨텍스트: "I Love Language"
    • 정답 확률:
  2. 현재 토큰이 "Love"이며, 다음 토큰을 예측하는 시점
    • : 현재 토큰이라고 표현 정의
    • : 마지막 층 L-th layer에서 생성된 벡터로, tk = 와 이전 문맥 정보를 포함한 문맥 표현
      이 예시에서 문맥 정보라고 표현 정의
    • : 다음 토큰 확률
      계산:
      • 모델은 문맥 정보를 기반으로 다음 토큰 (즉, "Language")의 조건부 확률을 계산 함.
      • 계산방법:
        다음 토큰 확률 (tk+1에 대한 조건부 확률의 곱 )=Softmax(가중치⋅문맥정보+bias)
  3. 정확한 의미:
    • 이 벡터는 Softmax 함수를 통해 다음 토큰 (즉, "Language")의 확률을 계산하는 데 사용됩니다. 

 

 

backward language Models
반대 방향도 방법은 같음.

대신 미래의 문맥 으로 이전 토큰 을 예측한다.

 

  • Bidirectional Language Model양방향 정보를 사용해 현재 토큰을 예측하거나 문맥 표현을 생성합니다.
    따라서, biLM은 "I"와 "Language"의 문맥 정보를 사용해 "Love"를 예측한다고 할 수 있음.

 

2. ELMo


foward language Models

 

각 토큰 tk에 대해 Rk는 해당 토큰의 모든 층에서 얻어진 표현을 모아놓은 집합입니다

 

 

  • ELMo는 양방향 모델(biLM)**이지만, 순방향과 역방향 모델이 별도로 학습되고, 최종적으로 출력이 결합됩니다. 따라서, 각각의 모델은 단방향이라고 말할 수 있습니다.
    • 반면, **BERT는 진정한 양방향 학습(Deep Bidirectional)**을 수행하며, 한 번의 학습 과정에서 양방향 정보를 동시에 처리합니다.
    따라서:
    • "ELMo는 각각의 단방향(순방향, 역방향) 언어 모델의 출력값을 concat해서 사용하기 때문에 하나의 모델 자체는 단방향이다." → 부분적으로 맞는 표현입니다.
    • 다만, ELMo 전체적으로는 두 단방향 모델을 결합한 양방향 모델로 동작하며, BERT의 Deep Bidirectional과 차이가 있다는 점이 정확히 맞습니다.