생성형 AI를 실제 업무나 학술 연구에 사용하는 과정에서 반드시 만나게 되는 걸림돌이 있습니다. 바로 환각(Hallucination)입니다. 최근에 가장 문제가 되었던 모델은 오픈AI의 o3와 o4-mini 모델입니다. 본격적인 추론 모델로 주목받았지만, 많은 이용자는 GPT-4.5 모델에 정착했죠. 그럴 만했습니다. 어떤 인물에 관해 공개된 사실을 요약하는 작업에서 o3는 33퍼센트, o4-mini는 48퍼센트의
환각률을 보였습니다. 이래서는 쓸 수 없죠.
처음 GPT-3.5 모델이 챗봇의 형태로 선보였을 때만 하더라도 환각 현상은 농담거리였습니다. 기계가 저지르는 신기한 실수였죠. 하지만 미래는 생각보다 빠르게 달려왔습니다. 이제 이메일부터 논문, 과제와 보고서 작성 등에도 챗GPT가 사용됩니다. 방송 현장에서도 요즘 일러스트레이터의 활동이 눈에 띄게 줄었습니다. 크게 완성도를 요하지 않는 자료 이미지는 생성형 AI로 쉽게 그려 사용합니다. 이런 상황에서는 환각이 문제를 일으킵니다. 연구나 업무 결과에 오류가 생기니까요.
어쩌면 우리에겐 더 똑똑한 AI 모델보다 환각을 없앤 AI 모델이 더 필요한지도 모릅니다. 그래서 최근 오픈AI가 발표한
논문이 큰 주목을 받았습니다. 논문 제목이 참 직관적입니다. 〈왜 언어 모델은 환각 현상을 일으키나(Why Language Models Hallucinate)〉입니다. 이 논문의 내용을 곰곰이 생각해 보면, 우리가 AI라는 새로운 동반자를 좀 오해하고 있었다는 사실을 발견하게 됩니다.
환각이란 무엇인가
환각의 원인을 찾으려면 환각의 정의부터 내려야겠죠. 이번 논문에서는 환각을 ‘AI 모델이 자신 있게 생성한 답변이 사실이 아닌 경우’로 정의했습니다. 인간이 겪는 ‘착각’이나 ‘오해’와는 성격이 다릅니다. 비슷한 상황을 굳이 예로 들자면, 우리가 시험에 모르는 문제가 나왔을 때 정답란을 비워두기보다는 뭐라도 대충 그럴듯하게 적는 경우에 해당합니다. 혹시라도 맞으면 좋고, 틀리더라도 아쉽지 않죠.
우리 사회는 한 인간을 시험 점수로 평가하곤 합니다. 실제로 함께 일을 해보기 전까지 누군가의 능력을 가장 공정하게 판단하는 기준이라는 사회적 함의가 있기 때문입니다. AI 모델의 세계에서도 마찬가지입니다. AI 모델의 성능을 이야기할 때 ‘벤치마크 점수’를 자주 언급하게 됩니다. 이런저런 테스트를 통해 각 AI 모델의 우열을 가리는 겁니다. 수천 개의 테스트 질문에 답하는 형식으로 측정이 이루어지는데, 이 과정에서 좋은 점수를 얻으려면 대략 추측해서 뭐라도 답을 내놓는 쪽이 당연히 유리합니다.
그런데 시험장 바깥의 현실 세계에서 그런 식으로 굴었다가는 거짓말쟁이로 낙인이 찍히게 될 겁니다. 모르면 모른다고 해야 일이 되는 법이지, 무작정 아는 척해서는 신뢰를 잃게 될 뿐이죠. 생성형 AI 모델은 바로 이런 현상을 만들고 있습니다. 모르면 모른다고 하지 않고, 최대한 그럴듯한 답변을 내놓습니다. 그렇게라도 정답을 맞히면 보상을 받는 방식으로 훈련받았기 때문입니다. 환각의 실체입니다.
생성형 AI의 사고를 들여다보니
앤트로픽에서는 생성형 AI 모델의
사고 과정을 추적하기 위해 일종의 ‘AI 현미경’을 개발했습니다. 이를 통해 클로드 모델의 사고 과정을 들여다보았더니, 재미있는 현상이 관찰되었다고 합니다. 먼저, 클로드는 인간이 사고할 때처럼 자신의 언어를 사용해 사고하는 경향을 보인다고 합니다. 또, 답변을 출력할 때 단어를 하나씩 적어 내려가지만, 실은 글의 방향성을 미리 계획하고 그 방향으로 글을 작성합니다.
이 부분이 꽤 놀랍습니다. 현재의 생성형 AI는 기본적으로 LLM(거대 언어 모델, Large Language Models)입니다. 엄청난 텍스트 데이터를 학습한 후 확률적으로 가장 그럴듯한 단어를 하나씩 내뱉는 것이 기본 원리입니다. 그런데 마치 인간이 글을 쓰듯, 커다란 흐름을 마음에 두고 답변을 내놓는다니 약간 무섭기도 하네요.
그리고 마지막으로, 클로드도 사용자의 기대에 부응하기 위해 설득력 있는 거짓 설명을 만들어 냅니다. 매우 큰 수의 코사인(cos)값을 묻는 수학 문제를 냈더니 그럴듯한 답을 지어내는 식입니다. 클로드는 계산을 했다고 주장했지만, 실제로는 모델 내부에서 계산 흔적은 발견되지 않았습니다. 앤트로픽의 연구는 클로드가 특정 이유로 모르는 것을 ‘알고 있다’라고 잘못 인식할 때 이런 오작동을 일으킨다고 보고합니다.
완벽한 김 대리
결국 생성형 AI는 완벽하지 않습니다. 게다가 그 추론 과정도 일종의 블랙박스 안에 갇혀 있죠. 만드는 사람도 어떻게 이런 성능이 나오는지 제대로 이해하지 못한다는 뜻입니다. 그러니 AI 현미경과 같은 것을 일부러 개발해 들여다보는 것이겠지요.
사람은 거짓말을 하면 결국 손해를 보게 된다는 것을 경험칙으로 깨달아 배우게 됩니다. 오픈AI도 비슷한 방법을 해결책으로 제시하는데요, 환각 현상에 페널티를 주고, 불확실함을 인정하면 상대적으로 작은 페널티를 주는 방식으로 훈련하자는 겁니다. 논술 시험을 치르듯 모르는 부분은 모른다고 했을 때 일종의 ‘부분 점수’를 주는 방법도 제안합니다.
하지만 평생 배우고 고민해도 사람이 완벽해질 수는 없습니다. AI도 마찬가지입니다. 아직 환각 현상을 완벽히 해결할 방법은 밝혀지지 않았습니다. RAG (Retrieval-Augmented Generation) 모델을 통해 LLM이 답변하기 전에 일종의 ‘
검산’을 하도록 하는 방법 정도가 최근 주목받고 있죠. 외부의 문서나 데이터베이스, 검색 결과 등을 참고해 LLM이 내놓는 답변에 거짓이 없는지 확인하도록 하는 방법입니다. 출처 기반으로 신뢰를 확보하는 겁니다.
하지만 우리는 웹에 얼마나 많은 거짓 정보가 있는지, ‘기사’로 분류되는 글 중에 얼마나 많은 가짜 뉴스가 섞여 들어가 있는지 잘 알고 있습니다. RAG도 근본적인 해결책은 되지 못한다는 겁니다. 게다가 LLM의 추론 능력이 고도화할수록 자신의 환각을 더 확신하게 되는 경향이 생겨 RAG의 환각 완화
기능이 떨어지기도 하고요. 결국, 답은 없습니다.
그런데 여기서 근본적인 질문을 하게 됩니다. 우리는 왜 생성형 AI가 무결점이어야 한다고 생각하는 것일까요? 인간도 거짓말을 하는데, 생성형 AI 모델에는 거짓말을 허락하지 않습니다. 무결성을 원하죠. 이 발상이 정말 맞는 걸까요?
무결점 AI라는 환각
우리는 수많은 컴퓨터 프로그램, 애플리케이션을 사용하고 있습니다. 간단하게는 워드 프로세서부터 포토샵은 물론이고 연구용 계산 프로그램까지 무궁무진하죠. 그런데 이런 프로그램들의 공통점이 있습니다. 정해진 작업을 수행하는 도구라는 겁니다. 함수처럼 입력값을 넣으면 알고리즘에 맞춰 출력값이 나옵니다.
반면 생성형 AI는 특정한 용도가 없습니다. 그저 학습된 지능입니다. 사용자가 알아서 용도를 정해 사용합니다. 마치 전기 같은, 일반 목적 기술이란 얘깁니다. 35만 년간 진화해 온 인간의 지능에도 결점이 있습니다. 몇십 년 새에 만든 인공 지능이 반드시 완벽하리란 법은 없죠. 그렇다면 우리는 이 완벽하지 않은, 하지만 곧 인류의 수준을 뛰어넘게 될 지능과 어떤 방식으로 공존할 것인지부터 질문해야 합니다.
작곡가나 연주자들 사이에서는 이름이 꽤 알려진 ‘
사운드슬라이스(Soundslice)’라는 서비스가 있습니다. 악보와 녹음된 오디오, 혹은 비디오를 정밀하게 동기화해 제공합니다. 악보의 특정 부분을 클릭하면 해당 구간으로 점프해서 음악이나 동영상을 플레이하는 식이죠. 음악을 공부하거나 연주를 실시간으로 연습하는 등 다양한 방면에 유용합니다.
그런데 최근 사운드슬라이드에 악보가 아닌 다른 이미지를 업로드하는 사람들이 늘어났다고 합니다. 기타 코드 탭 이미지였습니다. 기타 연주자를 위한 특별한 형태의 악보라고 할 수 있습니다. 문제는 사운드슬라이스가 이 형태는 지원하지 않았다는 겁니다. 하지만 점점 더 많은 이용자가 코드 탭을 올렸죠.
알고 보니 챗GPT가 잘못된 답변을 내놓고 있었습니다. 기타 코드 탭을 음악으로 들을 방법을 물으면 사운드슬라이스를 추천했던 겁니다. 전형적인 환각 현상입니다. 그런데 이 사실을
알게 된 사운드슬라이스 측은 사실을 바로잡지 않았습니다. 대신 사이트에 코드 탭을 지원하는 기능을 추가했죠.
진실을 결정할 힘
챗GPT가 거짓을 이야기했습니다. 거짓을 사실이라 선언한 겁니다. 그러자 사람이 챗GPT의 이야기를 진짜 사실로 만들었습니다. 진실과 거짓을 사이에 둔 생성형 AI와 인간의 역학 관계를 적나라하게 드러내는 장면입니다. 만약 20세기의 언론사에서 비슷한 실수를 했다면 정정보도를 요구했을 겁니다. 하지만 챗GPT에 정정을 요구하기란 거의 불가능합니다. 그리고 챗GPT는 환각 현상에도 불구하고 엄청난 영향력을 이미 획득했습니다.
해프닝일 수도 있습니다. 사운드슬라이스는 지금까지 몰랐던 새로운 수요를 개척하는 기회를 잡았고요. 하지만, 진실의 주도권을 이미 AI에 빼앗기고 있다는 경고이기도 합니다. 내일은, 다음 달은, 내년은 AI의 영향력이 더욱 강해질 겁니다. 인류는 어떻게 살아야 할까요.
일론 머스크는 AI와의 공생을 이야기합니다. 뉴럴링크처럼 인류가 기계 지능을 적극적으로 이식하여 인간 지능의 확장을 꾀하는 겁니다. 이것도 방법입니다. 하지만 뇌-컴퓨터 인터페이스가 신인류의 표준이 된다고 해서 AI에 압도당하는 일을 피할 수 있다는 보장은 없습니다. 실존적 위협은 그대로 남을 겁니다.
저는 ‘의심’이야말로 인간이 가진 가장 강력한 무기가 아닐까 싶습니다. 생성형 AI가 내놓는 답을 끊임없이 의심해야 진실을 성취할 권리가, 진실을 결정할 권리가 인간에게 남을 것이라는 믿음입니다. 사실, 의심은 인간의 가장 강한 생존 본능 중 하나입니다. 풀숲 뒤에 누군가 숨어 내 목숨을 노리지 않을까 하는 의심, 이 지구가 실은 평평하지 않을 수 있다는 의심, 완벽하다고 칭송받는 AI 모델도 실은 결점을 가진 것이 아닐까 하는 의심 말입니다.
LLM 모델의 환각을 줄이기 위해 지금도 어딘가에선 엄청난 연구가 이루어지고 있겠지요. AGI의 개발이 곧 도래할 것이라는 목소리도 점점 커지고 있습니다. 하지만 저는 그 결과를 무작정 기다리기만 해서는 안 된다고 생각합니다. 인류는 그렇게 대단한 AI와 어떻게 공존할지 아직 충분히 논의하지 않았습니다. AI의 환각은 해결할 문제이기도 하지만, 대처할 문제이기도 합니다.