RadGPT: A System Based on a Large Language Model That Generates Sets of Patient-Centered Materials to Explain Radiology Report Information
2025. 9. 5. 16:45ㆍ카테고리 없음
1. 연구 배경
- 21세기 치료법(Cures Act, 2021.04.05 시행):
환자가 자신의 건강 기록(예: 방사선 보고서)에 전자적으로 즉시 접근할 수 있도록 의무화. - 문제점:
- 방사선 보고서는 의학 전문 용어가 많아 환자가 이해하기 어려움.
- 의사의 설명 전에 보고서를 보면 환자가 불안·오해를 일으킬 수 있음.
- 의료진에게 전화 문의 증가 → 시간 소모 및 소진(burnout)**으로 이어질 수 있음.
- 현황:
- 미국 성인의 평균 독해 수준은 8학년 수준.
- 하지만 방사선 보고서 중 이 수준으로 읽을 수 있는 것은 4%에 불과.
- 필요성:
- 환자가 이해할 수 있도록 쉽게 풀어주는 자동화된 설명 도구 필요.
- 대규모 언어 모델(LLM)이 그 해결책이 될 수 있음.
2. 연구 목적
- GPT-4와 RadGraph를 활용하여 방사선 보고서를 환자 친화적으로 설명하고,
환자가 가질 법한 질문과 답변을 자동 생성하는 임상 도구 프레임워크 개발 및 평가.
3. 연구 방법
3-1. 데이터 수집
- 보고서 출처: 스탠포드 의과대학 데이터베이스 (2012–2020년)
- 대상: 6가지 영상검사 종류별로 각각 5개 → 총 30개 보고서
- 복부/골반 CT
- 두부 CT
- 부비동 CT
- 경부 MRI
- 척추 MRI
- 흉부 X선
- 선정 방법: Universal Sentence Encoder로 의미적 다양성이 큰 보고서 선택
- 후처리: 개인정보 제거 + 고유명사 제거
3-2. 개념 추출 및 설명과 질의응답 쌍 생성

A. 출발점: Report Impression
- 입력은 방사선 보고서의 임프레션(Impression) 부분입니다.
- 이는 방사선과 의사가 작성한 결론 요약이지만, 일반 환자에게는 이해하기 어려운 전문 용어가 포함되어 있습니다.
B. RadGraph를 통한 개념 추출
- RadGraph 도구를 사용하여 보고서 임프레션에서 핵심 개념(해부학 구조(entity), 관찰 소견(Observation), 관계(relationship))을 추출합니다.
- 여기서 무작위로 5개의 개념(Concepts 1–5)이 선택됩니다.
- 만약 해당 보고서에서 추출된 개념이 5개보다 적은 경우 어떻게 처리했는지에 대한 언급은 없습니다.연구진은 아마 30개 보고서 샘플을 선정할 때, 최소 5개 이상 개념이 뽑히는 보고서만 포함했을 가능성이 있습니다.
- 실제로 논문 결과에 따르면 총 150개 개념(30보고서 × 5개씩)을 사용했고, “144개 고유 개념”이라고 했기 때문에, 모든 보고서에서 5개를 꽉 채운 것으로 보입니다.
- 보통 방사선학 임프레션(impression)에는 여러 개의 관찰과 해부학 구조가 언급되므로, 대부분 5개 이상 개념이 나오는 경우가 많습니다.
- 예: “폐렴을 암시하는 혼탁화”, “좌하엽 결절” 등.
C. 개념 단위 설명과 질의응답
각 개념은 두 가지 방식으로 환자 친화적인 설명 및 Q&A로 확장됩니다.
(1) LLM 기반 경로
- LLM이 개념을 5학년 독해 수준으로 짧게 설명합니다 → Concept-Level Explanations (1–5).
- 같은 개념을 기반으로 LLM이 환자가 물어볼 법한 질문을 생성합니다 → Concept-LLM Questions (1–5).
- 그 질문에 대해 다시 LLM이 Concept-LLM Answers (1–5)를 생성합니다.
(2) 템플릿 기반 경로
- 사람이 설계한 템플릿 질문 구조를 사용합니다.
- “<개념>이란 무엇인가?”
- “<개념>의 기능은 무엇인가?”
- “<개념>의 원인은 무엇인가?”
- 이로부터 **Concept-Template Questions (1–5)**가 만들어지고, 답변은 다시 LLM을 통해 생성 → Concept-Template Answers (1–5).
D. 보고서 단위 질문·답변
- RadGraph 개념 추출을 거치지 않고, LLM이 임프레션 전체를 직접 요약·이해하여
- Report-Level Questions (1–3)
- Report-Level Answers (1–3)
를 생성합니다.
- 즉, 전체 맥락에서 환자가 가질 법한 핵심 질문과 그에 대한 짧은 답변을 제공합니다.
E. 최종 산출물
이 과정을 거치면:
- 개념 수준 설명 5개
- 질의응답 13쌍 (개념 기반 10쌍 + 보고서 기반 3쌍)
이 생성됩니다.
→ 환자가 방사선 보고서를 이해할 수 있도록 단계적이고 구조화된 교육 자료가 완성됩니다.
4. 연구 결과
4-1. 읽기 난이도 평가
- 모든 설명·질문·답변은 미국인의 80%가 이해 가능한 5학년 독해 수준으로 작성되도록 LLM(GPT-4)에 요청하였습니다.
- 평가 도구: Microsoft Word의 Flesch-Kincaid 학년 독해 수준 지표 사용.
- 결과:
- 보고서 수준 질문의 평균 난이도는 9.4학년으로 나타났으며, 이는 원문 임프레션의 복잡한 의학 용어를 반영한 결과로 해석됩니다.
- 다른 모든 설명·답변의 평균 난이도는 8학년 미만으로, CDC·NIH·CMS가 권장하는 기준을 충족하였습니다.
4-2. 전문가 평가 설계
- 평가자: 방사선학 레지던트 4명(3–5년차)과 주치의 방사선과 전문의 1명, 총 5명.
- 평가 절차:
- 초기 예비 보고서 5개를 검토 후 합의에 따라 평가 기준 확립.
- 설명·답변: 5점 리커트 척도 (1점 = 환자 진료에 해로움 가능성 , 5점 = 정확·자연스러운 정보).
- 질문: 3점 척도 (1점 = 관련 없음, 3점 = 확실히 관련 있음).
4-3. 평가 결과 요약

- 개념 수준 설명: 평균 4.8/5, 95%가 4점 이상. 절반(50%)은 모든 평가자에게서 만점(5점)을 받음.
- 개념 수준 질문:
- LLM 생성 질문: 평균 2.9/3 → 템플릿 기반 질문(2.6/3)보다 품질 높음.
- LLM 질문의 77%가 최고 점수, 템플릿 질문은 47%만 최고 점수.
- 답변 품질:
- LLM 질문 답변: 평균 4.7/5
- 템플릿 질문 답변: 평균 4.6/5
- 일부(5% 이하) 답변만 4점 미만 → 환자 안전에 심각하게 해로운 답변은 없음.
개념LLM 기반 질문평균 질문 평가RadGPT에서 제공한 답변평균 답변 평가
| 카르시노이드 가능성 | 종양이 카르시노이드인지, 림프종인지, 아니면 다른 것인지 확인하기 위해 어떤 검사를 실시하나요? | 3.0 | 의사들은 초음파 검사나 작은 덩어리를 채취하여 현미경으로 관찰하는 등 추가 검사를 할 것입니다. 이러한 검사는 덩어리가 카르시노이드인지, 림프종인지, 아니면 다른 종류의 종양인지 판별하는 데 도움이 됩니다. 의사들은 종양이 무엇인지 알아야 최선의 치료 방법을 결정할 수 있습니다. | 5.0 |
| 신결석증 | 내 신장에 신장 결석이 생기는 원인은 무엇일까? | 3.0 | 신장 결석은 칼슘이나 요산과 같은 특정 물질이 체내에 과다하게 축적되어 결석으로 굳어질 때 발생할 수 있습니다. 물을 충분히 마시지 않는 것도 이러한 물질들이 서로 뭉쳐 신장 결석을 유발할 수 있습니다. 소금이나 설탕을 너무 많이 섭취하는 것과 같은 특정 음식도 신장 결석 발생 위험을 높일 수 있습니다. | 5.0 |
| 라쿠나르 | 뇌의 작은 혈관이 막혀서 공동성 뇌경색이 발생하는 원인은 무엇일까요? | 3.0 | 열공성 경색, 즉 작은 뇌졸중은 뇌의 미세 혈관이 막힐 때 발생합니다. 고혈압이나 당뇨병 등이 원인일 수 있습니다. 도로가 막혀 차가 통행할 수 없는 것과 같은 원리인데, 이 경우에는 혈액이 뇌의 특정 부위로 공급되지 못하는 것입니다. | 5.0 |
| 잔여 만성 수집 | 뇌 속에 있는 오래된 혈액의 "잔류성 만성 축적물"은 시간이 지나면서 사라질까요, 아니면 제거해야 할까요? | 3.0 | 뇌에 오래된 혈액이 "만성적으로 축적"되는 현상은 시간이 지남에 따라 서서히 사라질 수 있습니다. 하지만 의사가 제거해야 할 수도 있습니다. 이는 환자의 상황에 따라 달라집니다. | 5.0 |
- 보고서 수준 Q&A:
- 질문: 평균 3.0/3, 최대 평균 평점을 받은 콘텐츠 비율 92%가 최고 점수.
- 답변: 평균 4.7/5, 최대 평균 평점을 받은 콘텐츠 비율 61%가 최고 점수.
5. 논의
- 의의:
- 환자가 방사선 보고서에 직접 접근하게 되면서 생길 수 있는 불안·오해를 줄이고,
- 환자 개별 보고서에 맞춘 설명과 Q&A를 자동으로 제공함으로써 실시간 환자 교육 도구로 활용 가능함.
- RadGPT의 장점:
- 개념 추출(RadGraph)과 LLM(GPT-4)을 결합하여 환자 맞춤형 자료 생성.
- 보고서 전체 요약이 아니라 환자가 실제로 관심 가질 특정 개념에 집중할 수 있음.
- 템플릿 기반 질문보다 LLM이 생성한 질문·답변의 품질이 더 우수함.
- 안전성:
- 평가 결과, 환자 진료에 심각하게 해가 될 수 있는 설명이나 답변은 관찰되지 않았음.
- 대부분의 콘텐츠가 높은 품질로 평가되었으며, 인적 큐레이션 없이도 즉시 사용 가능.
- 한계:
- 환자 대신 의사만 평가에 참여함 → 실제 환자 대상 평가 필요.
- 30개 보고서 규모 제한으로, 모든 영상검사 종류를 포괄하지 못함.
- 개인정보 삭제 과정의 문제는 평가하지 않음.
- GPT-4와 RadGraph만 사용 → 다른 LLM·도구와 비교 불가.
6. 결론 및 테이크홈 포인트
- 결론:
RadGPT는 방사선 보고서에서 개별 개념을 추출하고, GPT-4를 통해 설명과 질문·답변을 생성함으로써 환자 친화적이고 맞춤화된 교육 자료를 실시간으로 제공할 수 있는 안전하고 효과적인 도구임. - 테이크홈 포인트:
- RadGPT는 여러 영상검사 보고서에서 환자 중심 설명과 Q&A를 자동 생성.
- 설명·답변의 95% 이상, 질문의 90% 이상이 높은 평가를 받음.
- 환자 안전에 부정적 영향을 줄 수 있는 콘텐츠는 발견되지 않음.
- 환자의 참여와 이해도를 높이고, 의료진 부담을 줄이며, 의료 형평성 개선에 기여할 수 있음.