DL(2)
-
RadGraph-XL: A Large-Scale Expert-Annotated Dataset for Entity and Relation Extraction from Radiology Reports (요약)
1. 연구 배경영상의학 보고서는 환자 진료 과정에서 핵심적인 역할을 하지만, 대부분 비정형(unstructured) 텍스트 형태로 작성되어 임상 연구와 전산화된 응용에 직접 활용하기 어렵습니다.언어적 특성: 전문 용어, 복잡한 수식어, 불명확한 서술 포함.기존 자동화의 한계: 특정 질환 여부 분류는 가능했지만, 개별 임상 개체(entity)와 관계(relation) 수준의 구조적 정보 추출에는 부족.전문가 주석 비용: 고도의 도메인 지식을 가진 영상의학 전문의의 참여가 필요해 비용·시간 부담이 큼.기존의 대표적 데이터셋인 RadGraph-1.0은 흉부 X-ray 보고서만을 다루고 있어 CT, MRI 등 다양한 modality에는 적용할 수 없다는 제한이 있었습니다.2. 기존 연구 동향대규모 라벨링 데이터..
2025.09.05 -
Bio GPT Fine-Tuning
llama2로 판독문 데이터를 학습하였고, 더 좋은 모델을 찾기위해 여러가지 분석 후 Bio Gpt의 BioGPT-Large-PubMedQA를 선택하였다.LLama2에서는 LoRA 기법을 사용할 때 target_modules를 정의하는 오류가 발생하지 않았지만, 다른 모델에서는 이를 정의해야 하는 경우가 있다.특정 모듈을 업데이트해야 하는 경우, 모델의 복잡성 때문에 target_modules를 명확히 정의해야 LoRA가 올바르게 적용 됨.즉, 모델의 구조적 차이로 인해, 특정 모듈을 명시적으로 지정하지 않으면 LoRA가 적용되지 않을 수 있음.따라서, 모델 구조를 확인하고 레이어를 설정 함. peft_config = LoraConfig( task_type=TaskType.CAUSAL..
2024.06.11