전체 글(23)
-
Attention 구조 비교: MHA vs MQA vs GQA
1. 개요용어정의MHAMulti-Head Attention: Q, K, V를 모두 여러 Head로 나눠 독립적으로 계산하는 전통적인 구조MQAMulti-Query Attention: Q는 여러 개, K/V는 하나만 계산하고 모든 Head에서 공유GQAGrouped-Query Attention: Q는 여러 개, K/V는 일부 Head끼리 공유 (MQA와 MHA의 절충형) 2. 구조 비교항목MHA (기본형)MQA (속도 최적화형)GQA (절충형)Query (Q)각 Head마다 다름각 Head마다 다름각 Head마다 다름Key (K)각 Head마다 다름공통 (1개만 사용)그룹별 공유 (예: 8개 그룹)Value (V)각 Head마다 다름공통그룹별 공유KV 캐시 크기num_heads 만큼1개 (8~16배 감소)..
2025.05.30 -
LLM 인퍼런스 최적화
인과 언어 모델링언어 모델링에는 인과적 언어 모델링과 마스크드 언어 모델링, 두 가지 유형이 있습니다. 이 가이드에서는 인과적 언어 모델링을 설명합니다. 인과적 언어 모델은 텍스트 생성에 자주 사용됩니다. 이러한 모델은 자신만의 텍스트 어드벤처 게임이나 Copilot 또는 CodeParrot과 같은 지능형 코딩 도우미와 같은 창의적인 애플리케이션에 사용할 수 있습니다.인과적 언어 모델링은 일련의 토큰에서 다음 토큰을 예측하며, 모델은 왼쪽에 있는 토큰에만 반응합니다. 즉, 모델은 향후 토큰을 예측할 수 없습니다. GPT-2는 인과적 언어 모델의 한 예입니다. 트랜스포머 레이어를 쌓아 대규모 모델을 만들면 다양한 언어 작업에서 정확도가 향상되고, 퓨샷 러닝이 가능하며, 심지어 인간에 가까운 능력을 발휘할 ..
2025.05.21 -
Building Intelligent Apps withAgentic AI: Top Frameworks toWatch for in 2025
#1 — LangChain고수준 아키텍처주요 특징LangChain은 100만 명 이상의 개발자와 약 10만 개의 GitHub 스타를 보유하며 AI 앱 구축의 사실상 표준이 되었습니다.포괄적인 벤더 통합, 클라우드 벤더 지원, 서드파티 라이브러리 통합, 다양한 벡터 데이터베이스 등 풍부한 기능을 제공합니다.방대한 커뮤니티 지식과 높은 개발자 인지도로 인해 가장 널리 사용되는 프레임워크입니다.적합한 경우 (장점)엔터프라이즈 개발에 가장 적합하며, 표준 및 커뮤니티 주도의 지원을 받습니다.엔터프라이즈 전용 GenAI-LangChain 애플리케이션의 기본 빌딩 블록 구축에 적합합니다.다양한 서드파티 벤더와의 호환성이 필요한 경우나, 여러 솔루션 및 제품과의 통합을 고려할 때 유리합니다.다른 프레임워크가 더 나은..
2025.02.18 -
LSTM
**LSTM (Long Short-Term Memory)**는 **순환 신경망(Recurrent Neural Network, RNN)**의 한 종류로, **시간 순서가 중요한 데이터(시계열 데이터)**를 처리하고 학습하는 데 사용됩니다. LSTM은 기존 RNN의 장기 의존성(Long-term dependency) 문제를 해결하기 위해 설계되었습니다.1. RNN과 LSTM의 차이RNN의 문제: 장기 의존성 문제RNN은 순차적인 데이터를 처리하기 위해 설계되었지만, 이전 입력에서 중요한 정보가 멀리 떨어져 있을 경우 해당 정보를 효과적으로 학습하기 어렵습니다.예를 들어, 긴 문장에서 초반에 나온 주어 정보를 끝부분에서 활용해야 하는 경우, RNN은 정보가 점차적으로 사라지는 기울기 소실(Vanishing G..
2024.11.18 -
Deep Contextualized Word Representations
1. Bidirectional Language Modelsfoward language Modelsinput sentence가 N개의 토큰으로 이루어져 있다고 할 때, (t1,...,tk−1)의 정보를 가지고 문맥에 대한 정보를 얻고 토큰 tk의 확률을 계산 함.아래 예시로 설명할 수 있음.질문과 컨텍스트의 상황:질문: "What do you love most?"컨텍스트: "I Love Language"정답 확률:현재 토큰이 "Love"이며, 다음 토큰을 예측하는 시점: 현재 토큰이라고 표현 정의: 마지막 층 L-th layer에서 생성된 벡터로, tk = "Love"와 이전 문맥 정보를 포함한 문맥 표현이 예시에서 문맥 정보라고 표현 정의: 다음 토큰 확률계산:모델은 문맥 정보를 기반으로 다음 토..
2024.11.15 -
추천 시스템 정리
Collaborative Filtering (CF, 협업필터링)1) Memory-Based ApproachUser-based Filtering1. 평점 유사도 기반으로 자신과 유사한 사용자를 찾음2. 유사한 사용자가 좋아하는 item 추천 여기서 유사한 정도(거리) 측정 방법은 다양함 - 사용자(행) - 아이템(열) 행렬을 사용함 • 일반적인 거리 측정 방법론 - Cosine Similarity ( 일반적으로 사용되는 유사도 ) 사용자 u와 사용자 u′가 같은 방향성을 보고 있지는를 평가함 - Pearson Similarity 평균적인 경향성에서 얼마나 차이가 나는지를 기반으로 함 Centered Cosine Similarity..
2024.10.25