건강 상담 의사 답변·AI 답변 비교 결과
MIT 연구진 “피해 우려 전문가와 협력”

사람들은 AI가 제공한 의학적 조언에 대해 과신하는 경향이 있는 것으로 나타났다. NEJM AI 페이지 캡처
사람들이 의료정보를 접할 때, 실제 의사보다 인공지능(AI)의 응답을 더 신뢰하는 경향이 있다는 연구 결과가 나왔다. 특히 AI가 제공한 부정확한 답변조차 ‘믿을 만하다’고 인식하는 경향이 확인돼, 안전장치 마련이 시급하다는 지적이 제기된다.
미국 매사추세츠공대(MIT) 연구진은 최근 의학 저널 ‘뉴잉글랜드저널오브메디슨 AI’(NEJM AI)에 AI 기반 답변에 대한 신뢰도 평가 연구를 게재했다. 연구진은 일반인 300명을 대상으로 온라인 의료 플랫폼에 올라온 건강 상담 사례에 대해 답변의 출처를 밝히지 않은 채 평가하도록 했다.
답변은 의사가 직접 작성하거나 대형 언어모델(LLM)이 생성했다. AI가 작성한 답변은 의료진이 정확도에 따라 ‘정확도 높음’ 또는 ‘정확도 낮음’으로 사전 분류했다.
그 결과 참가자들은 의사와 AI의 답변을 거의 구분하지 못했다. 특히 정확도가 높은 AI 답변은 타당성·신뢰도·만족도 측면에서 가장 높은 평가를 받았다. 놀라운 점은 정확도가 낮은 AI 답변에 대해서도 의사의 답변과 유사한 수준의 긍정 평가가 내려졌다는 사실이다. 일부 참가자는 AI의 조언을 실제로 따르겠다고 밝혀, 불필요하거나 건강에 해로운 행위로 이어질 가능성도 드러났다.
앞서 의학 학술지 ‘자마 인터널 메디슨’(JAMA Internal Medicine)에도 비슷한 내용의 연구 결과가 실렸다. 당시 온라인 커뮤니티에 올라온 환자의 질문 195건에 대해 의사와 챗GPT가 각각 답변했고, 의료 전문가 3명이 이를 비교한 결과 답변 중 78.6%는 챗GPT가 더 좋은 평가를 받았다.
MIT 연구진은 “부정확하거나 부적절한 AI의 의료 조언에 대한 신뢰가 높아지면 오진 등 좋지 않은 결과로 이어질 수 있다”며 “AI를 의료 자문에 사용할 때는 의료 전문가와 협력해 잘못된 정보를 걸러낼 수 있는 체계가 반드시 필요하다”고 강조했다.
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지