4분 읽기
- 모든 실험에서 OpenAI o1은 인간 의사의 기준 점수를 능가
- 특히 환자정보가 가장 부족하고 긴급한 상황인 응급실에서 성능 차이 두드러져
- 응급실에서는 정확한 진단을 즉시 내리는 것이 반드시 중요한 것 아니야
- 가장 중요한 것은 위중한 환자의 상태를 안정시킨 후 추가 치료를 시작하는 것
인공지능이 의사를 어떻게 도울 수 있을까?
진단을 내리고 치료 계획을 세우는 것은 전통적으로 의사의 영역이었다. 그러나 고도화된 인공지능 모델은 이러한 업무를 의사만큼, 혹은 그 이상으로 수행할 수 있다. 실제 환자 사례를 바탕으로 의사와 인공지능이 생성한 진단 및 치료 결정을 비교한 연구에서 이를 확인할 수 있었다. 특히 응급실에서 제한된 정보만을 가지고 신속하게 결정을 내리는 데 있어 인공지능이 인간 의사보다 우수한 것으로 나타났다. 연구진은 이 결과가 인공지능이 의사를 대체할 수 있다는 것을 의미하는 것은 아니라고 강조한다. 하지만 의료 전문가를 지원하는 도구로서 인공지능은 환자 치료의 질을 향상시킬 잠재력을 가지고 있다.
 |
| ▲ 첨단 AI 모델은 어떻게 더 나은 의료 진단과 치료 계획을 수립하는 데 도움을 줄 수 있을까? |
인공지능 언어 모델은 방대한 데이터셋을 기반으로 학습되어 최대한 인간과 유사한 답변을 제공한다. 정보를 분석하고 요약하며, 질문에 답하고, 인간의 문제에 공감하는 듯한 모습을 보이기도 한다. 그러나 특히 민감한 영역에서는 인공지능이 생성한 정보에만 의존해서는 안 된다. 언어 모델은 단순히 패턴을 평가하고 재현하는 데 그치기 때문에 오류가 발생하기 쉽다. 의료 정보는 특히 중요한 정보로 여겨진다. 점점 더 많은 사람이 ChatGPT와 같은 앱을 사용하여 증상에 대해 질문하고 의료 조언을 구하고 있지만, 이전 연구에 따르면 AI는 설득력 있고 도움이 되는 것처럼 보일 수 있지만 때로는 위험한 오정보를 제공할 수도 있다.
의사보다 나을까요?동시에, 실제 또는 가상 의료 사례 보고서를 접한 AI 모델은 정확한 진단과 치료 제안을 제시하는 데 점점 더 능숙해지고 있다. 보스턴에 있는 베스 이스라엘 디코니스 메디컬 센터의 피터 브로듀어(Peter Brodeur)가 이끄는 연구팀의 연구는 이러한 AI 모델의 뛰어난 성능을 입증했다. 연구팀은 OpenAI의 o1 언어 모델을 사용하여 여러 표준화된 임상 사례와 실제 응급실 사례를 평가하고 다른 AI 모델 및 인간 의사의 성능과 비교했다.
이 연구에서 다른 의사들은 진단과 결정이 인간에 의해 이루어졌는지 AI에 의해 이루어졌는지 알지 못한 채 평가했다. 결과는 다음과 같다. "모든 실험에서 OpenAI o1은 인간 의사의 기준 점수를 능가했으며 이전 세대의 임상 AI 의사 결정 지원 모델에 비해 지속적인 개선을 보였다"고 연구팀은 보고했다. 인간 의사와 비교했을 때, o1은 더 높은 정확도로 정확한 진단을 내리고, 추가 치료에 대한 올바른 결정을 더 자주 내렸다.
 |
| ▲ 그림 1. 2012년부터 2024년까지 NEJM 임상병리학회(CPC)에서 사용된 감별진단 생성기 및 LLM의 성능.
NEJM CPC에서 사용된 감별진단(DDx) 생성기 및 LLM의 감별 진단에 정확한 진단을 포함시킨 정확도를 연도별로 나타낸 막대 그래프. 다른 LLM 또는 DDx 생성기에 대한 데이터는 문헌에서 얻었습니다(재료 및 방법). 95% 신뢰구간은 단일 표본 이항 검정을 사용하여 계산했다. (출처:Performance of a large language model on the reasoning tasks of a physician / Science /26 Apr 2026) |
급성 상황에서의 이점브로듀어와 그의 동료들은 "특히 환자에 대한 정보가 가장 부족하고 올바른 결정을 내려야 하는 긴급한 상황인 응급실에서 성능 차이가 두드러지게 나타났다"고 보고했다. 의사는 제한된 정보로 인해 약 절반의 경우에만 올바른 결정을 내린 반면, AI는 약 3분의 2의 경우에서 정확한 결정을 내렸다. 또한 AI는 의료 기록에서 파편화되고 비정형적인 데이터를 효과적으로 활용할 수 있었다.
연구진은 이러한 결과가 미래 의료에 중요한 의미를 가질 수 있다고 생각한다. "임상 결정을 지원하기 위해 AI를 사용하는 것은 때때로 위험한 시도로 여겨지지만, 이러한 도구의 활용이 확대되면 진단 오류, 지연 및 의료 접근성 부족으로 인한 인적 및 재정적 손실을 줄이는 데 도움이 될 수 있다"고 그들은 말했다.
인간을 대체할 수는 없다브로듀어와 그의 연구팀에 따르면, "의사 AI"는 인간 의사를 완전히 대체할 수는 없다. "진단은 중요하지만 의학의 전부는 아니다"고 브로듀어의 동료인 아담 로드먼은 설명했다. 예를 들어, 응급실에서는 정확한 진단을 즉시 내리는 것이 반드시 중요한 것은 아니다. 우선 가장 중요한 것은 위중한 환자의 상태를 안정시킨 후 추가 치료를 시작하는 것이다. AI는 이러한 과정에서 유용한 지원을 제공할 수 있지만, 단독으로 모든 것을 해결할 수는 없다. 또한, 이 연구는 텍스트 기반 정보만을 테스트했으며, 임상 현장에서 중요한 청각 및 시각 정보와 같은 영역은 제외되다.
"저는 AI 기반 의료 서비스 회사가 의사를 진료 현장에서 밀어내거나 최소한의 임상 감독만 제공하는 것을 원하지 않는다. 이 연구의 주 저자 중 한 명으로서, 저는 우리의 연구 결과가 그러한 주장을 뒷받침한다고 생각하지 않는다"며 "하지만 이 결과는 이러한 기술을 활용하여 환자의 삶을 개선하는 방법을 탐구하는 견고하고 야심찬 연구 의제를 뒷받침한다”고 로드먼은 말했다.
따라서 향후 연구에서는 AI의 지원을 받는 의사가 실제로 안전하고 효과적이며 공정한 더 나은 결정을 내리는지를 검증하는 것이 매우 중요하다.
출처:
Peter Brodeur (Beth Israel Deaconess Medical Center, Boston, Massachusetts, USA) 외, Science, doi: 10.1126/science.adz4433
[더사이언스플러스=문광주 기자]
[저작권자ⓒ the SCIENCE plus. 무단전재-재배포 금지]