RadGPT: A System Based on a Large Language Model That Generates Sets of Patient-Centered Materials to Explain Radiology Report Information

2025. 9. 5. 16:45카테고리 없음

1. 연구 배경

  • 21세기 치료법(Cures Act, 2021.04.05 시행):
    환자가 자신의 건강 기록(예: 방사선 보고서)에 전자적으로 즉시 접근할 수 있도록 의무화.
  • 문제점:
    • 방사선 보고서는 의학 전문 용어가 많아 환자가 이해하기 어려움.
    • 의사의 설명 전에 보고서를 보면 환자가 불안·오해를 일으킬 수 있음.
    • 의료진에게 전화 문의 증가 → 시간 소모 및 소진(burnout)**으로 이어질 수 있음.
  • 현황:
    • 미국 성인의 평균 독해 수준은 8학년 수준.
    • 하지만 방사선 보고서 중 이 수준으로 읽을 수 있는 것은 4%에 불과.
  • 필요성:
    • 환자가 이해할 수 있도록 쉽게 풀어주는 자동화된 설명 도구 필요.
    • 대규모 언어 모델(LLM)이 그 해결책이 될 수 있음.

2. 연구 목적

  • GPT-4와 RadGraph를 활용하여 방사선 보고서를 환자 친화적으로 설명하고,
    환자가 가질 법한 질문과 답변을 자동 생성하는 임상 도구 프레임워크 개발 및 평가.

3. 연구 방법

3-1. 데이터 수집

  • 보고서 출처: 스탠포드 의과대학 데이터베이스 (2012–2020년)
  • 대상: 6가지 영상검사 종류별로 각각 5개 → 총 30개 보고서
    • 복부/골반 CT
    • 두부 CT
    • 부비동 CT
    • 경부 MRI
    • 척추 MRI
    • 흉부 X선
  • 선정 방법: Universal Sentence Encoder로 의미적 다양성이 큰 보고서 선택
  • 후처리: 개인정보 제거 + 고유명사 제거

3-2. 개념 추출 및 설명과 질의응답 쌍 생성

 

A. 출발점: Report Impression

  • 입력은 방사선 보고서의 임프레션(Impression) 부분입니다.
  • 이는 방사선과 의사가 작성한 결론 요약이지만, 일반 환자에게는 이해하기 어려운 전문 용어가 포함되어 있습니다.

B. RadGraph를 통한 개념 추출

  • RadGraph 도구를 사용하여 보고서 임프레션에서 핵심 개념(해부학 구조(entity), 관찰 소견(Observation), 관계(relationship))을 추출합니다.
  • 여기서 무작위로 5개의 개념(Concepts 1–5)이 선택됩니다.
    • 만약 해당 보고서에서 추출된 개념이 5개보다 적은 경우 어떻게 처리했는지에 대한 언급은 없습니다.연구진은 아마 30개 보고서 샘플을 선정할 때, 최소 5개 이상 개념이 뽑히는 보고서만 포함했을 가능성이 있습니다.
    • 실제로 논문 결과에 따르면 총 150개 개념(30보고서 × 5개씩)을 사용했고, “144개 고유 개념”이라고 했기 때문에, 모든 보고서에서 5개를 꽉 채운 것으로 보입니다.
    • 보통 방사선학 임프레션(impression)에는 여러 개의 관찰과 해부학 구조가 언급되므로, 대부분 5개 이상 개념이 나오는 경우가 많습니다.
  • 예: “폐렴을 암시하는 혼탁화”, “좌하엽 결절” 등.

C. 개념 단위 설명과 질의응답

각 개념은 두 가지 방식으로 환자 친화적인 설명 및 Q&A로 확장됩니다.

(1) LLM 기반 경로

  • LLM이 개념을 5학년 독해 수준으로 짧게 설명합니다 → Concept-Level Explanations (1–5).
  • 같은 개념을 기반으로 LLM이 환자가 물어볼 법한 질문을 생성합니다 → Concept-LLM Questions (1–5).
  • 그 질문에 대해 다시 LLM이 Concept-LLM Answers (1–5)를 생성합니다.

 

(2) 템플릿 기반 경로

  • 사람이 설계한 템플릿 질문 구조를 사용합니다.
    • “<개념>이란 무엇인가?”
    • “<개념>의 기능은 무엇인가?”
    • “<개념>의 원인은 무엇인가?”
  • 이로부터 **Concept-Template Questions (1–5)**가 만들어지고, 답변은 다시 LLM을 통해 생성 → Concept-Template Answers (1–5).

D. 보고서 단위 질문·답변

  • RadGraph 개념 추출을 거치지 않고, LLM이 임프레션 전체를 직접 요약·이해하여
    • Report-Level Questions (1–3)
    • Report-Level Answers (1–3)
      를 생성합니다.
  • 즉, 전체 맥락에서 환자가 가질 법한 핵심 질문과 그에 대한 짧은 답변을 제공합니다.

E. 최종 산출물

이 과정을 거치면:

  • 개념 수준 설명 5개
  • 질의응답 13쌍 (개념 기반 10쌍 + 보고서 기반 3쌍)
    이 생성됩니다.
    → 환자가 방사선 보고서를 이해할 수 있도록 단계적이고 구조화된 교육 자료가 완성됩니다.

 

4. 연구 결과

4-1. 읽기 난이도 평가

  • 모든 설명·질문·답변은 미국인의 80%가 이해 가능한 5학년 독해 수준으로 작성되도록 LLM(GPT-4)에 요청하였습니다.
  • 평가 도구: Microsoft Word의 Flesch-Kincaid 학년 독해 수준 지표 사용.
  • 결과:
    • 보고서 수준 질문의 평균 난이도는 9.4학년으로 나타났으며, 이는 원문 임프레션의 복잡한 의학 용어를 반영한 결과로 해석됩니다.
    • 다른 모든 설명·답변의 평균 난이도는 8학년 미만으로, CDC·NIH·CMS가 권장하는 기준을 충족하였습니다.

4-2. 전문가 평가 설계

  • 평가자: 방사선학 레지던트 4명(3–5년차)과 주치의 방사선과 전문의 1명, 총 5명.
  • 평가 절차:
    • 초기 예비 보고서 5개를 검토 후 합의에 따라 평가 기준 확립.
    • 설명·답변: 5점 리커트 척도 (1점 = 환자 진료에 해로움 가능성 , 5점 = 정확·자연스러운 정보).
    • 질문: 3점 척도 (1점 = 관련 없음, 3점 = 확실히 관련 있음).

4-3. 평가 결과 요약

  • 개념 수준 설명: 평균 4.8/5, 95%가 4점 이상. 절반(50%)은 모든 평가자에게서 만점(5점)을 받음.
  • 개념 수준 질문:
    • LLM 생성 질문: 평균 2.9/3 → 템플릿 기반 질문(2.6/3)보다 품질 높음.
    • LLM 질문의 77%가 최고 점수, 템플릿 질문은 47%만 최고 점수.
  • 답변 품질:
    • LLM 질문 답변: 평균 4.7/5
    • 템플릿 질문 답변: 평균 4.6/5
    • 일부(5% 이하) 답변만 4점 미만 → 환자 안전에 심각하게 해로운 답변은 없음.

개념LLM 기반 질문평균 질문 평가RadGPT에서 제공한 답변평균 답변 평가

카르시노이드 가능성 종양이 카르시노이드인지, 림프종인지, 아니면 다른 것인지 확인하기 위해 어떤 검사를 실시하나요? 3.0 의사들은 초음파 검사나 작은 덩어리를 채취하여 현미경으로 관찰하는 등 추가 검사를 할 것입니다. 이러한 검사는 덩어리가 카르시노이드인지, 림프종인지, 아니면 다른 종류의 종양인지 판별하는 데 도움이 됩니다. 의사들은 종양이 무엇인지 알아야 최선의 치료 방법을 결정할 수 있습니다. 5.0
신결석증 내 신장에 신장 결석이 생기는 원인은 무엇일까? 3.0 신장 결석은 칼슘이나 요산과 같은 특정 물질이 체내에 과다하게 축적되어 결석으로 굳어질 때 발생할 수 있습니다. 물을 충분히 마시지 않는 것도 이러한 물질들이 서로 뭉쳐 신장 결석을 유발할 수 있습니다. 소금이나 설탕을 너무 많이 섭취하는 것과 같은 특정 음식도 신장 결석 발생 위험을 높일 수 있습니다. 5.0
라쿠나르 뇌의 작은 혈관이 막혀서 공동성 뇌경색이 발생하는 원인은 무엇일까요? 3.0 열공성 경색, 즉 작은 뇌졸중은 뇌의 미세 혈관이 막힐 때 발생합니다. 고혈압이나 당뇨병 등이 원인일 수 있습니다. 도로가 막혀 차가 통행할 수 없는 것과 같은 원리인데, 이 경우에는 혈액이 뇌의 특정 부위로 공급되지 못하는 것입니다. 5.0
잔여 만성 수집 뇌 속에 있는 오래된 혈액의 "잔류성 만성 축적물"은 시간이 지나면서 사라질까요, 아니면 제거해야 할까요? 3.0 뇌에 오래된 혈액이 "만성적으로 축적"되는 현상은 시간이 지남에 따라 서서히 사라질 수 있습니다. 하지만 의사가 제거해야 할 수도 있습니다. 이는 환자의 상황에 따라 달라집니다. 5.0
  • 보고서 수준 Q&A:
    • 질문: 평균 3.0/3, 최대 평균 평점을 받은 콘텐츠 비율  92%가 최고 점수.
    • 답변: 평균 4.7/5, 최대 평균 평점을 받은 콘텐츠 비율  61%가 최고 점수.

5. 논의

  • 의의:
    • 환자가 방사선 보고서에 직접 접근하게 되면서 생길 수 있는 불안·오해를 줄이고,
    • 환자 개별 보고서에 맞춘 설명과 Q&A를 자동으로 제공함으로써 실시간 환자 교육 도구로 활용 가능함.
  • RadGPT의 장점:
    • 개념 추출(RadGraph)과 LLM(GPT-4)을 결합하여 환자 맞춤형 자료 생성.
    • 보고서 전체 요약이 아니라 환자가 실제로 관심 가질 특정 개념에 집중할 수 있음.
    • 템플릿 기반 질문보다 LLM이 생성한 질문·답변의 품질이 더 우수함.
  • 안전성:
    • 평가 결과, 환자 진료에 심각하게 해가 될 수 있는 설명이나 답변은 관찰되지 않았음.
    • 대부분의 콘텐츠가 높은 품질로 평가되었으며, 인적 큐레이션 없이도 즉시 사용 가능.
  • 한계:
    1. 환자 대신 의사만 평가에 참여함 → 실제 환자 대상 평가 필요.
    2. 30개 보고서 규모 제한으로, 모든 영상검사 종류를 포괄하지 못함.
    3. 개인정보 삭제 과정의 문제는 평가하지 않음.
    4. GPT-4와 RadGraph만 사용 → 다른 LLM·도구와 비교 불가.

6. 결론 및 테이크홈 포인트

  • 결론:
    RadGPT는 방사선 보고서에서 개별 개념을 추출하고, GPT-4를 통해 설명과 질문·답변을 생성함으로써 환자 친화적이고 맞춤화된 교육 자료를 실시간으로 제공할 수 있는 안전하고 효과적인 도구임.
  • 테이크홈 포인트:
    • RadGPT는 여러 영상검사 보고서에서 환자 중심 설명과 Q&A를 자동 생성.
    • 설명·답변의 95% 이상, 질문의 90% 이상이 높은 평가를 받음.
    • 환자 안전에 부정적 영향을 줄 수 있는 콘텐츠는 발견되지 않음.
    • 환자의 참여와 이해도를 높이고, 의료진 부담을 줄이며, 의료 형평성 개선에 기여할 수 있음.