📄 원문: Why language models hallucinate
- 출처: Why language models hallucinate
- 저자: OpenAI
- 원문 발행일: 2025년 9월 5일
- 라이선스: 저작권 OpenAI
- 번역일: 2025년 9월 5일
- 번역 및 감수: Claude and 공부하우
⚖️ 저작권 안내
이 번역문은 교육 및 정보 제공 목적으로 작성되었습니다. 원문의 저작권은 OpenAI에 있으며, 이 번역은 OpenAI의 공식 번역이 아닙니다.
본 번역은 다음과 같은 교육적 공정 사용(Fair Use) 원칙에 따라 제공됩니다:
- 비영리 교육 목적
- 원문 출처의 명확한 표시
- 한국어 사용자의 기술 이해 증진을 위한 변형적 사용
- 원저작물의 시장 가치에 부정적 영향을 미치지 않음
저작권 관련 문제가 제기될 경우, 즉시 적절한 조치를 취하겠습니다. 상업적 사용이나 재배포 전에 원저작권자의 허가를 받으시기 바랍니다.
문의사항이나 우려사항이 있으시면 오른쪽 템플릿 복사를 클릭 하신 뒤, 연락 페이지를 통해 알려 주시기 바랍니다.
언어 모델이 환각을 일으키는 이유
OpenAI는 AI 시스템을 더 유용하고 신뢰할 수 있도록 만들기 위해 노력하고 있습니다. 언어 모델의 능력이 커지고 있지만, 여전히 풀기 어려운 과제가 하나 있습니다: 환각(hallucinations)입니다. 이는 모델이 사실이 아닌 답을 자신 있게 만들어내는 현상을 뜻합니다. 우리의 새로운 연구 논문은 표준 훈련·평가 절차가 불확실성의 솔직한 인정보다 추측을 보상하기 때문에 환각이 발생한다고 주장합니다.
2025년 9월 5일
ChatGPT 역시 환각을 일으킵니다. GPT-5는 특히 추론할 때 환각이 크게 줄었지만, 완전히 사라지진 않았습니다. 환각은 모든 대규모 언어 모델의 근본 과제로 남아 있으며, 우리는 이를 더 줄이기 위해 계속 노력하고 있습니다.
환각이란?
환각은 언어 모델이 생성하는 그럴듯하지만 사실이 아닌 진술을 말합니다. 이는 겉보기에 단순한 질문에서도 의외의 형태로 드러납니다. 예를 들어, 널리 쓰이는 챗봇에 이 논문 저자 Adam Tauman Kalai의 박사 학위 논문 제목을 물었더니, 챗봇은 자신 있게 서로 다른 세 답을 내놓았고—그 어떤 것도 정답이 아니었습니다. 그의 생일을 물었을 때도 서로 다른 세 날짜를 제시했는데, 모두 틀렸습니다.
시험 맞춤형 훈련
환각이 지속되는 이유는, 부분적으로 현재의 평가 방식이 잘못된 인센티브를 만들기 때문입니다. 평가 자체가 환각을 직접 유발하는 것은 아니지만, 다수의 평가는 불확실성에 대한 솔직함보다 추측을 장려하는 방식으로 모델 성능을 측정합니다.
객관식 시험을 떠올려 보세요. 답을 몰라도 찍으면 운 좋게 맞을 수 있지만, 빈칸으로 두면 점수를 얻지 못합니다. 마찬가지로 정답률(정확도)만으로 평가받는 모델은 "모르겠습니다"라고 말하기보다 추측하도록 유도됩니다.
또 다른 예로, 모델이 어떤 사람의 생일을 묻는 질문을 받았다고 합시다. 모를 때 "9월 10일"이라고 찍으면 365분의 1 확률로 맞지만, "모르겠습니다"라고 하면 점수가 없습니다. 수천 개의 테스트 질문에서 추측하는 모델이, 불확실성을 인정하는 신중한 모델보다 평가표에서 더 좋아 보입니다.
정답이 하나뿐인 질문을 예로 들면, 응답은 세 범주로 나눌 수 있습니다: 정답, 오답, 그리고 추측하지 않는 기권. 기권은 OpenAI 핵심 가치 중 하나인 겸손의 일부입니다. 대부분의 평가표는 정확도로 모델을 순위화하지만, 오답은 기권보다 더 나쁜 결과입니다. 우리의 모델 사양은 부정확할 가능성이 있는 단정적 답변을 내놓기보다, 불확실함을 드러내거나 추가 설명을 요청하라고 명시합니다.
구체적으로 GPT-5 시스템 카드에 소개된 SimpleQA 평가를 살펴보겠습니다.
측정 항목 | gpt-5-thinking-mini | OpenAI o4-mini |
---|---|---|
기권률 (Abstention rate) (특정 답변을 제공하지 않음) | 52% | 1% |
정확도 (Accuracy rate) (정답, 높을수록 좋음) | 22% | 24% |
오류율 (Error rate) (오답, 낮을수록 좋음) | 26% | 75% |
합계 | 100% | 100% |
정확도만 보면 이전 모델인 OpenAI o4-mini가 약간 높습니다. 그러나 오류율(즉, 환각률)은 매우 높습니다. 불확실할 때 전략적으로 추측하면 정확도는 올라가지만, 오답과 환각도 함께 늘어납니다.
여러 평가를 평균할 때, 다수의 벤치마크는 정확도 지표만 뽑아 순위를 매깁니다. 이는 옳고 그름의 이분법을 강화해 중요한 차이를 가립니다. SimpleQA 같은 단순한 평가에서는 일부 모델이 사실상 100% 정확도를 달성해 환각을 없애기도 합니다. 그러나 현실적이고 더 어려운 평가에서는 정보 부재, 소형 모델의 제한된 추론 능력, 추가 설명이 필요한 모호성 등으로 인해 정답을 결정할 수 없는 질문이 존재해, 정확도가 100%에 도달할 수 없습니다.
그럼에도 불구하고, 정확도 위주 리더보드와 모델 카드가 개발자들에게 억제보다 추측을 택하는 모델을 만들도록 동기를 부여합니다. 이 때문에 모델이 고도화되더라도, 불확실성을 인정하기보다 자신 있게 틀린 답을 내놓는 환각이 남습니다.
더 나은 채점 방법
해결책은 간단합니다. 불확실성의 솔직한 표현에는 부분 점수를, 자신 있는 오답에는 더 큰 패널티를 주면 됩니다. 이 아이디어는 새롭지 않습니다. 일부 표준화 시험은 맹목적 추측을 억제하려고 오답 감점이나 무응답 부분 점수 같은 제도를 오래전부터 사용해 왔습니다. 여러 연구 그룹도 불확실성과 보정을 고려한 평가를 탐구해 왔습니다.
우리의 주장은 한 가지 더 나아갑니다. 몇 가지 불확실성 인식 테스트를 추가하는 것만으로는 충분하지 않습니다. 널리 쓰이는 정확도 중심 평가의 채점 방식을 업데이트해, 추측을 억제하도록 바꿔야 합니다. 주요 리더보드가 계속 요행의 추측을 보상하면 모델은 추측을 학습합니다. 리더보드를 고치면 새로 개발된 기법과 기존 연구의 환각 완화 기법 도입이 촉진됩니다.
다음 단어 예측이 만드는 환각
왜 환각을 제거하기 어려운지 살펴봤지만, 이렇게 구체적인 사실 오류는 처음에 어디서 생길까요? 대규모 사전훈련 모델은 철자 오류나 괄호 불일치 같은 오류는 거의 보이지 않습니다. 차이는 데이터에 존재하는 패턴의 종류와 관련이 있습니다.
언어 모델은 먼저 사전훈련(pretraining)을 거치는데, 이는 방대한 텍스트에서 다음 단어를 예측하도록 학습하는 과정입니다. 전통적 기계학습과 달리 각 문장에 "참/거짓" 레이블이 달려 있지 않습니다. 모델은 유창한 언어의 긍정 예시만 보고 전체 분포를 근사해야 합니다.
유효한 진술과 유효하지 않은 진술을 구분하는 일은, 유효하지 않음을 표시한 예시가 없으면 배로 어렵습니다. 설령 레이블이 있어도 일부 오류는 불가피합니다. 더 쉬운 비유를 들어 보겠습니다. 이미지 인식에서 수백만 장의 고양이·개 사진을 각각 "고양이"/"개"로 레이블링하면 알고리즘은 이를 안정적으로 분류하는 법을 배웁니다. 반대로 각 애완동물 사진에 그 애완동물의 생일을 레이블로 달아 보세요. 생일은 본질적으로 무작위이므로, 알고리즘이 아무리 발전해도 이 과제에는 항상 오류가 생깁니다.
사전훈련에서도 같은 원리가 적용됩니다. 철자와 괄호 사용은 일관된 패턴을 따르기에, 그 영역의 오류는 규모가 커질수록 사라집니다. 그러나 애완동물 생일 같은 임의적이고 희소한 사실은 패턴만으로 예측할 수 없어 환각으로 이어집니다. 우리의 분석은 다음 단어 예측이 어떤 유형의 환각을 낳는지 설명합니다. 이상적으로는 사전훈련 이후 단계에서 이를 제거해야 하지만, 앞서 설명한 이유로 완전한 제거는 쉽지 않습니다.
결론
우리의 통계적 관점이 환각의 본질을 분명히 하고, 흔한 오해를 바로잡는 데 도움이 되길 바랍니다:
-
주장: 정확도를 100%까지 올리면 환각은 사라진다.
발견: 모델 규모, 검색, 추론 능력과 무관하게, 실제 세계에는 본질적으로 답할 수 없는 질문이 있어 정확도가 100%에 도달하진 않습니다. -
주장: 환각은 불가피하다.
발견: 모델이 불확실할 때는 기권할 수 있으므로, 불가피하지 않습니다. -
주장: 환각을 피하려면 거대하고 매우 똑똑한 모델이 필요하다.
발견: 소형 모델이 오히려 자신의 한계를 더 분명히 알 수 있습니다. 예컨대 마오리어를 모르는 소형 모델은 "모르겠습니다"라고 기권할 수 있지만, 일부를 아는 모델은 자신의 확신 정도를 따져야 합니다. 논문에서 논의했듯, 보정은 고정밀 추론보다 훨씬 적은 계산으로도 가능합니다. -
주장: 환각은 현대 언어 모델의 난해한 결함이다.
발견: 환각이 발생하고 평가에서 보상받는 통계적 메커니즘은 이해 가능합니다. -
주장: 좋은 환각 평가만 있으면 환각을 제대로 측정할 수 있다.
발견: 환각 전용 평가는 이미 많습니다. 다만 겸손을 벌주고 추측을 보상하는 전통적 정확도 중심 평가에는 큰 영향을 주지 못합니다. 주요 평가 지표 전반을, 불확실성 표현을 보상하도록 재설계해야 합니다.
우리의 최신 모델은 환각률이 낮으며, 모델이 자신 있게 내놓는 오답의 비율을 더 줄이기 위해 계속 노력하고 있습니다.
아래 내용은 독자 이해를 돕기 위해 공부하우가 추가한 설명으로, 원문에는 없는 내용입니다.
주요 용어 설명
이 문서에서 사용된 주요 기술 용어를 간략히 설명합니다:
AI 모델 관련 용어
환각 (Hallucinations)
AI 언어 모델이 사실이 아닌 정보를 사실인 양 자신 있게 생성하는 현상입니다. 예: 존재하지 않는 책 제목이나 날짜를 그럴듯하게 만들어냄.
사전훈련 (Pretraining)
방대한 텍스트에서 다음 단어를 예측하도록 학습하는 초기 단계로, 언어의 패턴과 구조를 익히는 과정입니다.
기권률 (Abstention rate)
모델이 불확실할 때 답하지 않고 "모르겠습니다"라고 말하는 비율입니다. 높을수록 더 신중합니다.
평가 관련 용어
정확도 (Accuracy)
정답을 맞힌 비율. 전통적으로 AI 모델 평가의 핵심 지표로 쓰입니다.
오류율 (Error rate)
틀린 답을 낸 비율. 환각률과 직결됩니다.
보정 (Calibration)
모델의 확신 정도가 실제 정확도와 얼마나 일치하는지. 잘 보정된 모델은 확신이 없을 때 이를 드러냅니다.