향상된 대형 언어 모델을 활용한 의료 질문 답변
Med-PaLM 2, 이전 모델 대비 성능 19% 향상
의료 질문 답변에서 대형 언어 모델(LLMs)의 활용은 그 잠재성이 높아지고 있다. 특히 Med-PaLM은 미국 의사 면허 시험 스타일의 질문에서 '정답' 점수를 초과한 첫 사례로 주목받고 있다. 그러나 복잡한 의학 질문에 대한 대응과 실제 작업 흐름 처리에는 여전히 과제가 남아 있다. Med-PaLM 2는 이러한 과제를 해결하기 위해 개발되었으며, 기본 언어 모델 개선, 의료 분야 맞춤 튜닝, 새로운 논리 및 근거 강화 전략을 통합하여 이전 모델보다 크게 향상된 성능을 보인다. Med-PaLM 2는 MedQA 데이터셋에서 86.5%의 점수를 기록하며, 이전 모델을 19% 이상 넘어섰고, 다양한 의료 주제 데이터셋에서 뛰어난 성능 향상을 보여준다.
Med-PaLM 2의 임상적 선호도 및 안전성 평가
자세한 인간 평가 프레임워크를 통해 밝혀진 바에 따르면, 의사들은 9가지 임상 축에서 Med-PaLM 2의 답변을 다른 의사들의 것보다 선호하는 것으로 나타났다. 또한, 실세계 의료 질문을 사용하는 파일럿 연구에서는 전문가가 일반 의사보다 Med-PaLM 2의 답변을 65% 더 선호했다. 전체적으로 전문의의 답변이 여전히 더 선호되었지만, Med-PaLM 2의 답변은 안전성 면에서 의사의 답변과 동일하게 평가되어 실세계 의료 애플리케이션에서의 성장 가능성을 입증했다.
대형 언어 모델이 의료 분야에 미치는 영향
언어는 건강과 의학의 핵심으로, 사람과 의료 제공자 간의 상호작용을 기반으로 한다. 대형 언어 모델의 발전은 인공지능 시스템이 언어를 이해하고 소통할 수 있는 의료 분야에서의 가능성을 열었으며, 이는 풍부한 인간-인공지능 상호작용과 협력을 약속한다. 이 모델들은 다지선다형 연구 벤치마크에서 인상적인 능력을 발휘해 왔다. 모델들은 특히 의료 질문 답변 작업에서 괄목할 만한 성과를 보이고 있으며, 현재 개발 중인 Med-PaLM 2는 이러한 성과를 더욱 확장하고 있다.
Med-PaLM 2는 다지선다형 및 긴 질문 응답에 대한 강력한 성능을 보여주며, 이전 모델보다 상당히 개선된 모습을 보인다. 이 연구의 발견은 LLMs가 임상 워크플로 내에서 의료 전문가를 지원하기 위해 고품질, 안전 및 관련성이 높은 답변을 제공할 수 있는 잠재력이 있다는 점을 시사한다.
출처 : 원문 보러가기