LLM(6)
-
LLM 인퍼런스 최적화
인과 언어 모델링언어 모델링에는 인과적 언어 모델링과 마스크드 언어 모델링, 두 가지 유형이 있습니다. 이 가이드에서는 인과적 언어 모델링을 설명합니다. 인과적 언어 모델은 텍스트 생성에 자주 사용됩니다. 이러한 모델은 자신만의 텍스트 어드벤처 게임이나 Copilot 또는 CodeParrot과 같은 지능형 코딩 도우미와 같은 창의적인 애플리케이션에 사용할 수 있습니다.인과적 언어 모델링은 일련의 토큰에서 다음 토큰을 예측하며, 모델은 왼쪽에 있는 토큰에만 반응합니다. 즉, 모델은 향후 토큰을 예측할 수 없습니다. GPT-2는 인과적 언어 모델의 한 예입니다. 트랜스포머 레이어를 쌓아 대규모 모델을 만들면 다양한 언어 작업에서 정확도가 향상되고, 퓨샷 러닝이 가능하며, 심지어 인간에 가까운 능력을 발휘할 ..
2025.05.21 -
Building Intelligent Apps withAgentic AI: Top Frameworks toWatch for in 2025
#1 — LangChain고수준 아키텍처주요 특징LangChain은 100만 명 이상의 개발자와 약 10만 개의 GitHub 스타를 보유하며 AI 앱 구축의 사실상 표준이 되었습니다.포괄적인 벤더 통합, 클라우드 벤더 지원, 서드파티 라이브러리 통합, 다양한 벡터 데이터베이스 등 풍부한 기능을 제공합니다.방대한 커뮤니티 지식과 높은 개발자 인지도로 인해 가장 널리 사용되는 프레임워크입니다.적합한 경우 (장점)엔터프라이즈 개발에 가장 적합하며, 표준 및 커뮤니티 주도의 지원을 받습니다.엔터프라이즈 전용 GenAI-LangChain 애플리케이션의 기본 빌딩 블록 구축에 적합합니다.다양한 서드파티 벤더와의 호환성이 필요한 경우나, 여러 솔루션 및 제품과의 통합을 고려할 때 유리합니다.다른 프레임워크가 더 나은..
2025.02.18 -
LSTM
**LSTM (Long Short-Term Memory)**는 **순환 신경망(Recurrent Neural Network, RNN)**의 한 종류로, **시간 순서가 중요한 데이터(시계열 데이터)**를 처리하고 학습하는 데 사용됩니다. LSTM은 기존 RNN의 장기 의존성(Long-term dependency) 문제를 해결하기 위해 설계되었습니다.1. RNN과 LSTM의 차이RNN의 문제: 장기 의존성 문제RNN은 순차적인 데이터를 처리하기 위해 설계되었지만, 이전 입력에서 중요한 정보가 멀리 떨어져 있을 경우 해당 정보를 효과적으로 학습하기 어렵습니다.예를 들어, 긴 문장에서 초반에 나온 주어 정보를 끝부분에서 활용해야 하는 경우, RNN은 정보가 점차적으로 사라지는 기울기 소실(Vanishing G..
2024.11.18 -
Deep Contextualized Word Representations
1. Bidirectional Language Modelsfoward language Modelsinput sentence가 N개의 토큰으로 이루어져 있다고 할 때, (t1,...,tk−1)의 정보를 가지고 문맥에 대한 정보를 얻고 토큰 tk의 확률을 계산 함.아래 예시로 설명할 수 있음.질문과 컨텍스트의 상황:질문: "What do you love most?"컨텍스트: "I Love Language"정답 확률:현재 토큰이 "Love"이며, 다음 토큰을 예측하는 시점: 현재 토큰이라고 표현 정의: 마지막 층 L-th layer에서 생성된 벡터로, tk = "Love"와 이전 문맥 정보를 포함한 문맥 표현이 예시에서 문맥 정보라고 표현 정의: 다음 토큰 확률계산:모델은 문맥 정보를 기반으로 다음 토..
2024.11.15 -
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
COT는 LLM의 성능을 높이는 여러 방법 중 프롬프트를 활용하는 방법으로주어진 질문에 대해 텍스트에서 답을 찾아 제공하는 질문 답변 (Question Answering)에서 추론 Task 성능을 끌어올리는 방법이다. 이미지를 사전에 학습시킨 모델에서 원본 이미지만 넣고 최상의 결과를 기대하지않는다.사전에 이미지를 개선하거나, 출력된 바운딩 박스를 조정하기도한다.이처럼 LLM도 사전 학습된 모델을 수정하지않는 상태로 특별한 학습 설정 없이 출력을, 즉 프롬프팅으로 기대하는 결과를 나오게 만들 수 있다.COT를 리뷰하기전 대표적인 프롬프팅의 배경으로 Zero Shot, Few Shot을 볼 수있다.Zero-Shot은 예시나 정보 없이 그대로 단답형으로 출력하는 것이라면Few-Shot은 Prompt의 벡터에..
2024.06.11 -
LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale
LLM 훈련 및 추론에 엄청난 GPU 메모리가 요구된다. 추론 단계만 해도, 모델 파라미터 수 x 자료형 x 1.2 정도의 용량이 필요하다. 예를 들어, 40B 크기의 모델을 4바이트 자료형으로 구동하면 대략 190GB의 메모리가 필요하다. (여기서 1.2는 어텐션 캐시나 토큰 생성과 같은 추가 메모리 요구를 고려한 배수이다.)이러한 메모리 요구 사항을 줄이려면 자료형을 조정하는 양자화 기법을 사용할 수 있다. 양자역학에 따르면, 거시적인 세계는 연속적이지만 미시적인 세계는 이산화된 형태에 가까워서, 분절된 행렬 값으로 표현하기 적절하다고 한다. 딥러닝에서의 양자화란, 연속적인 형태의 정보를 이산화된 형태로 변환하여 의미를 유지하면서 정보 크기를 압축하는 기법을 말한다. 그러므로 그 어원은 양자역학에서 ..
2024.05.28