임상에서 대형 언어 모델 활용 평가방안

대형 언어 모델(LLM)의 의료 대화 평가 틀 제안

대형 언어 모델(LLM)의 임상 진단 통합은 의사와 환자 간의 상호작용을 혁신할 수 있는 잠재력을 가지고 있다. 그러나 이러한 모델이 실제 임상 환경에서 얼마나 준비가 되었는지는 충분히 테스트되지 않았다. 이를 위해 CRAFT-MD(Conversational Reasoning Assessment Framework for Testing in Medicine)라는 새로운 평가 방법이 소개되었다. 이 접근 방식은 전통적인 구조화된 의료 시험과는 달리, 자연스러운 대화를 중심으로 설계되었으며, LLMs와 인공지능 에이전트의 상호작용을 통해 이를 평가한다.

다양한 LLM 모델의 진단 능력 평가

CRAFT-MD를 통해 GPT-4, GPT-3.5, Mistral 및 LLaMA-2-7b를 12개 의료 전문 분야에서 평가했다. 실험 결과, 현재 LLM들의 임상 대화 추론 능력, 병력 확인, 진단 정확성 등에 대한 제한점을 파악할 수 있었다. 이러한 제한점은 GPT-4V의 대화 및 시각적 평가에서도 나타났다.

현실적 대화와 포괄적 질문의 중요성

우리의 연구 결과를 바탕으로 임상 LLM에 대한 향후 평가에 대한 포괄적인 권장 사항을 제안한다. 이 권장 사항은 현실적인 의사-환자 대화, 포괄적인 병력 수집, 개방형 질문, 자동화 및 전문가 평가를 혼합적으로 활용하는 것을 강조한다. CRAFT-MD의 도입은 임상 LLM의 테스트에 중요한 진전을 이루며, 이러한 모델이 의학 실무를 효과적이고 윤리적으로 지원할 수 있도록 기여한다.

LLM을 통한 효과적인 의학적 상호작용 촉진

CRAFT-MD 프레임워크는 LLM의 임상 대화 이끌기 평가를 더 빠르게 진행하고, 미래 모델 개발을 위한 한계를 발견하는 데 중점을 두고 있다. 이 모델은 환자와의 예비 대화를 통해 관련 의료 정보를 수집하고 요약해 의사에게 전달함으로써 임상 작업 흐름을 향상시킬 수 있다. 이를 통해 의사-환자 상호작용의 효과를 높일 수 있는 가능성을 제공하며, 이는 더 정교한 LLM 개발과 더불어 적절한 공감 행동에 대한 이해가 필요하다.

출처 : 원문 보러가기

Leave a Comment