워싱턴주립대 연구 “AI 답변, 정확성과 일관성 모두 한계”

워싱턴주립대학교(WSU) 연구진이 인공지능 챗봇 챗지피티(ChatGPT)의 답변 정확성과 일관성에 한계가 있다는 연구 결과를 발표했다.

WSU 경영학과 메수트 치체크 부교수 연구팀은 ChatGPT가 과학 논문에 제시된 가설이 사실인지 여부를 얼마나 정확하게 판단하는지 분석하는 실험을 진행했다. 연구진은 학술 논문에 포함된 700개 이상의 가설을 입력한 뒤 동일한 질문을 10번씩 반복해 AI의 답변 정확성과 일관성을 테스트했다.

그 결과 ChatGPT의 정답률은 2024년 실험에서 76.5%, 2025년 실험에서는 80%로 나타났다. 그러나 참·거짓 문제는 무작위로 답해도 50% 확률로 맞힐 수 있다는 점을 고려하면 실제 신뢰도는 약 60% 수준에 불과하다고 연구진은 설명했다.

특히 가설이 ‘거짓’일 경우 이를 정확하게 판단한 비율은 16.4%에 그쳤다. 또 동일한 질문을 반복했을 때 서로 다른 답을 내놓는 경우도 적지 않아, 일관된 정답을 유지한 비율은 약 73% 수준이었다.

이번 연구 결과는 학술지 러트거스 비즈니스 리뷰(Rutgers Business Review)에 게재됐다. 연구진은 AI가 유창한 문장을 생성할 수는 있지만 복잡한 문제를 깊이 이해하는 능력은 제한적일 수 있다며, 중요한 판단에 활용할 때는 결과를 반드시 검증해야 한다고 강조했다.