
온타리오 감사관들, 의사용 AI 노트 작성기가 기본 사실을 반복적으로 틀린다고 밝혀
의사들이 환자 진료 내용을 자동으로 기록하는 데 사용하는 AI 노트 작성 도구가 오히려 기본 사실을 Invention으로 만들어내고 있다는 충격적인 보고서가 나왔다. 캐나다 온타리오주 감사관실이 공공서비스 AI 사용 현황을 점검한 보고서중데、 Ontario Ministry of Health가 조달한 AI Scribe 프로그램의 평가 결과가 비판의 중심에 올랐다.
온타리오가 승인한 20개 AI 노트 작성 시스템, 전부 문제 발견
온타리오 주는 의사, 전문간호사, 기타 의료 전문가를 대상으로 AI 노트 작성 도구 조달 프로그램을 운영하고 있다.주정부가추상스루AI Syracuse시스테무오도입시타의료기관하、Supply Ontario오통지테사전 승인한 20개 벤더의 시스템을 테스트했다. 테스트 방식은 단순했다. 모의 의사-환자 녹음 두 건을 각 시스템에 통과시키고, 의료 전문가들이 원본 녹음과 AI가 생성한 진료 메모를 대조하는 것이었다.
결과는 충격적이었다. 20개 시스템 중 하나도도사즈 문제가 발견됐다.
9개 시스템이 환자 정보를 Entirely Invention
가장 위험한 문제는 Hallucination, 즉 시스템이 실제 논의된 적 없는 내용을 만들어내는 현상이었다. 20개 시스템 중 9개가 녹음에서 다뤄지지 않은 내용을 Invention하고 환자 치료 계획 제안까지 생성했다. 샘플 보고서에는 "종괴가 발견되지 않았다"거나 "환자가 불안해했다"는 식의 표현이 포함됐지만, 이런 내용은 녹음에서 논의되지 않았던 것이다.
12개 시스템은 환자 메모에 잘못된 약물 정보를 삽입했다. 처방약 이름이 바뀌거나 복용량이 잘못 기재되는 등 약물 오류가 발생한 것이다. 17개 시스템은 녹음에서 다뤄진 환자의 정신건강 관련 핵심 세부사항을 놓쳤다. 정신건강 문제는 환자의 전반적인 치료 방향에 핵심적인 정보인데, 이를 빠뜨린다는 것은 진료 연속성에 심각한 위협이 된다.
평가 시스템의 근본적 문제
이 실패의 원인 중 하나는 평가 가중치에 있다. 플랫폼 평가 점수의 30%는 Ontario 내 국내 거점 보유 여부에 배정됐다. 반면 의료 메모의 정확도는 전체 점수의 4%만 차지했다. 편향 통제는 2%, 위협·위험·개인정보 평가는 2%, SOC 2 Type 2 준수는 4%에 그쳤다.
평균적으로 AI Scribe의 의료 메모 정확도 점수는 20점 만점에 12점에 불과했다. 그러나 이 점수가 전체 평가에서 차지하는 비중이 너무 낮아, 정확도 점수가 0점이어도 승인 기준을 쉽게 충족할 수 있었다.
감사 보고서는 "AI Scribe 시스템이 생성하는 노트의 품질을 보장하고 부정확성을 최소화하도록 테스트하는 것이 중요하다"며 "IT 부서에서는 의사들이 생성된 노트를 환진일지에 기록하기 전에 반드시 검토하도록 조치해야 한다"고 권고했다.
OntarioMD의 안전 권고, 현실에서는 지켜지지 않아
OntarioMD는 의사의 신기술 도입을 지원하고 AI Scribe 조달 과정에 참여하면서, 의사들이 AI가 만든 메모의 정확성을 수동으로 검토하라고 권고했다. 그러나 감사 보고서에 따르면, 승인된 AI Scribe 시스템 중 어느 것도 의사가 정확성을 확인했다는 필수 확인 기능을 갖추지 않은 것으로 나타났다.
Ontario에서 현재 5,000명 이상의 의사가 AI Scribe 프로그램에 참여하고 있다.주정부시해항목적감관부문 but admitted they have received no reports of patient harm related to the technology.
AI 신뢰성의 근본적 딜레마
HN 댓글에서는 이 사례를 두고 AI의 능력-신뢰성 격차에 대한 뜨거운 논쟁이 벌어졌다. 한 익명 댓글은 다음과 같이 지적했다. "현재 AI 기술의 미래에 대해 대체로 비관에서 낙관으로 바뀌었지만, 모델이 크게 발전하는 와중에도 기본 사실 오류가 계속 남아 있는 점은 여전히 크게 걸림." 어떤 댓글은 "거의 작동하다가 중요한 세부사항에서 실패한다"며 "영화 속 인물이 어딘가 이상하더니 좀비였다는 식의 느낌"이라고 표현했다.
의료 분야에서의 AI 활용은 많은 가능성을 제시하지만, 이 보고서가 보여주듯 아직은 인간의 감독 없이는 환자 안전을 보장하기 어렵다. AI가 생성한 내용을 의사가 반드시 직접 검토하고 검증해야 한다는 원칙은 더욱 강화되어야 할 것이다.
핵심 정리
• Ontario 감사관실, 20개 승인 AI Scribe 전부에서 정확도 문제 확인
• 9개 시스템이 실제 없는 내용을 Invention, 12개 시스템이 잘못된 약물 정보 삽입
• 의료 메모 정확도는 평가 점수의 4%에 불과 — 전체의 30%는 국내 거점
• Ontario 5,000명 이상의 의사가 해당 프로그램 참여 중
• 감사관실: AI 노트 생성 전 반드시 의사 수동 검토 의무화 권고
📚 출처
'AI 뉴스' 카테고리의 다른 글
| Tailwind에서 벗어나며 CSS 구조화 배우기 — 개발자가 알아야 할 핵심 정리 (0) | 2026.05.16 |
|---|---|
| LLM 생성 제출물은 금지되어야 한다 — arXiv 1년 정지부터 Lobsters.rs 논쟁까지 (0) | 2026.05.16 |
| 영국 정부, Palantir 소프트웨어를 내부 구축 난민 시스템으로 교체 — 무엇이 달라졌을까 (1) | 2026.05.16 |
| 새 arXiv 정책: 환각 참고문헌에 1년 이용 금지 — 개발자가 알아야 할 핵심 정리 (0) | 2026.05.16 |
| 미국은 상업화라는 이름표 아래 AI 전쟁을 이기고 있다 (0) | 2026.05.16 |