GPT-5는 왜 이럴까?

bkjn review

오픈AI의 혁신이 어떤 한계에 부딪혔다는 신호입니다.

GPT-5는 왜 이럴까

2025년 8월 14일

GPT-5가 공개되었습니다. 발표 직전까지는 분위기가 좋았죠. 이미 선두를 달리고 있는 오픈AI가 새로운 모델과 함께 더 빠르게 치고 나갈 것이라는 예상이 지배적이었습니다. 예상의 근거는 지금까지 오픈AI가 보여줬던 퍼포먼스입니다. 늘 혁신을 보여줬죠. 하지만 아쉽게도 이번엔 그러지 못했습니다.

사용자들은 불만을 쏟아내고 있습니다. 샘 올트먼 CEO가 ‘핵폭탄급’이라거나 ‘박사 수준’이라며 기대치를 한껏 올려놓았지만, 정작 간단한 수학 문제도 풀지 못한다는 겁니다. 예전 모델보다 오히려 체감 성능은 떨어진다는 얘기도 나옵니다. 답을 내놓는 데에 시간이 너무 많이 걸리는 데다 말투도 차가워 거부감이 든다는 평가입니다.

뭔가 잘못됐습니다. 이전 모델인 GPT-4o를 돌려달라는 원성이 자자합니다. 사실, GPT-5 모델이 실패작은 아닙니다. 전작에 비해 분명 성능은 좋아졌습니다. 하지만 뭔가 잘못되긴 했습니다. 그 오류는 오픈AI가 풀어야 할 숙제입니다.

박사급 모델이라고 했는데

저도 모델이 업그레이드된 직후 평소처럼 챗GPT를 사용하려다가 조금 당황했습니다. 평소라면 바로 답변을 내놓기 시작했을 지시에 한참을 고민하고 생각한 겁니다. 조금 답답하긴 했지만, 그래도 기다렸습니다. 향상된 모델의 성능이 궁금했던 겁니다. 하지만 결과물은 이번에 비해 크게 달라진 것이 없었습니다. 이럴 거면 왜 그렇게 추론 시간을 많이 쓴 건지 의아할 정도였죠.

이런 현상은 챗GPT-5 모델을 일종의 ‘AI 에이전트’에 가깝게 만들고자 했던 의도 때문입니다. 지금까지 오픈AI의 챗GPT 서비스를 이용할 때 상황에 맞는 모델을 골라 쓰곤 했습니다. 평소에는 GPT-4o 모델을 쓰다가 추론이나 코딩 등의 작업을 할 때엔 o3 모델을 선택하는 식이었죠. 즉, 챗GPT는 일종의 도구였습니다. 내 작업에 맞는 모델을 적극적으로 골라 사용했습니다.

그런데 GPT-5는 에이전틱(agentic) 작업에 최적화되어 있습니다. 스스로 판단해서 일련의 작업을 계획하고 실행하는 방식입니다. 즉, 알아서 오래 생각해 답을 낼지, 빨리 간단한 답을 내놓을지 결정해 작업합니다. 모델을 골라 쓸 수 있는 옵션이 사라지고 GPT-5 단일 모델만 남겼던 이유입니다.

또, 사용자 요구의 최종 목표를 파악하고 여러 단계를 거쳐 문제를 해결합니다. 예를 들어, AI 에이전트에게 ‘현대 미술 작품 감상을 위한 파리 여행 준비를 도와달라’라는 지시를 내리면, 알아서 최저가 항공권과 적당한 호텔을 검색해 추천해 줄 겁니다. 결제 권한까지 있다면 항공권과 호텔을 직접 예매도 해 주겠죠. 또, 미술관이나 갤러리의 공휴일, 미술 관련 행사 일정 등을 공유해 최적의 스케쥴도 제안해 줄 겁니다. 최종적으로는 이 모든 결과를 종합 보고서로 제공해 줍니다. 대충 말해도 알아서 착착 챙겨 주는 겁니다. 인간 비서, 즉 에이전트에 가까운 형태입니다. GPT-5는 이런 방식으로 작동하는 AI 모델을 목표로 설계되었습니다.

프롬프트와 컨텍스트 사이

문제는 GPT-5가 완성형이 아니라는 겁니다. 아직 지시 사항의 의도를 파악하는 능력이 완벽하지 않기 때문에 사용자가 당황하게 됩니다. 게다가 알아서 모델을 바꿔가며 대응하는 ‘라우터’ 기능이 서비스 초기에는 활성화되지 않는 오류까지 발생했죠.

예전과는 달리 GPT-5 이외에 다른 모델을 선택할 여지조차 사라지고 나니, 사용자들은 오류 아닌 오류에 대응하기도 어려웠습니다. GPT-4o 모델을 돌려달라는 항의가 나온 까닭입니다. 그래서 현재는 챗GPT 화면에 연산을 빠르게 처리할지, 추론에 시간을 쓸 지 선택하는 옵션이 추가되었습니다. GPT-4o 모델 옵션도 부활했고요. 사용자들의 불만에 한 발 물러선 겁니다. 사실, 이렇게 되면서 GPT-5 발표 이전의 사용 환경과 크게 차이가 없어졌습니다.

이뿐만이 아닙니다. 오픈AI는 GPT-5 모델을 위한 ‘프롬프트 가이드’도 발표했습니다. 일종의 GPT-5 사용 설명서입니다. GPT-5가 이전 모델과는 다른 방식으로 작동하기 때문에 이에 맞는 사용법을 설명할 필요가 생긴 겁니다. 지금까지는 ‘프롬프트 엔지니어링(Prompt Engineering)’이 필요했습니다. 지시 사항을 명확하게 알려주는 겁니다. 또, 단계별로 어떻게 일을 할지도 지시해 줘야 했죠. 이를테면, ‘9월 둘째주 프랑스 파리에서 열리는 현대 미술 관련 행사를 검색해서 날짜별로 정리해 줘. 동선을 최소화할 수 있도록 스케쥴을 짜 줘.’ 이런식으로 말이죠.

반면, 에이전틱 모델에서는 ‘컨텍스트 엔지니어링 (Context Engineering)’이 중요해집니다. 모델이 결과물을 낼 때 참고할 배경 정보나 자료, 환경 설정 등을 설계하는 기술입니다. 그러면 AI 모델이 ‘알아서’ 최적의 툴로 최선의  단계를 구상해 결과물을 냅니다. 일머리 좋은 직장인처럼 말입니다. 즉, ‘현대 미술 작품을 보러 9월 둘째주 쯤 파리에 갈까 해. 근데 발목을 다쳐서 오래 걷기는 힘들어.’ 이런식으로 상황과 배경을 입력해야 최선의 결과가 나옵니다. 그런데 사용자들은 이런 변화를 잘 몰랐습니다. 예전 방식대로 GPT-5에게 일을 시키니 결과물이 불만족 스럽습니다. 그래서 내놓은 것이 이번 가이드입니다. 내용을 들여다 보면 컨텍스트 엔지니어링으로 나아가기 위한 프롬프트 엔지니어링입니다. 아이러니합니다.

익숙함의 가치

사실 우리가 AI 에이전트를 기대하는 까닭은 ‘비서’라는 조력자의 개념에 몹시 익숙하기 때문입니다. 또, AI(Artificial Intelligence)의 역사라는 것 자체가 인간 지능을 이데아에 두고 그에 한없이 가까워지기 위한 설계를 발전시켜 온 기록이기도 하고요. 인공지능을 평가하기 위한 가장 고전적인 테스트 ‘튜링 테스트’만 해도 기계가 인간과 얼마나 유사하게 행동하는지를 판별합니다. 즉, AI의 꿈은 인간입니다.

그래서 오픈AI는 챗봇이라는 형태로 생성형 AI를 서비스하고 있습니다. 인간의 지능을 모방한 기계이니, 인간에 가까운 형태로 서비스할 가장 저렴한 방법입니다. 나를 조력할 유사 인간으로서 궁극의 형태를 달성한 것이 AI 비서, 즉 AI 에이전트일 것이고요.

하지만, ‘대화’는 비효율적인 방법입니다. 기계에 지시를 내릴 땐 그에 맞는 방법이 따로 있죠. 시리에 오늘 날씨를 묻는 것보다 날씨 앱을 터치하는 것이 훨씬 빠른 것처럼 말입니다. 그래서 우리는 인간의 표현 방식과 기계 언어 사이에서 ‘GUI’라는 타협점을 찾았습니다.

그럼에도 생성형 AI와 우리는 대화하고 있습니다. 이 방식은 새로운 기술에 대한 일반 사용자의 진입 장벽을 낮춘 것이 사실이고요. 챗GPT-3.5 시절, 기계와의 대화는 사실 생산적이지 않았습니다. 하지만 그 의미 없는 대화를 통해 우리 모두 거대 언어 모델이라는 새로운 개념을 경험했고 완벽히 이해했죠. 그리고 생성형 AI를 도구가 아닌 조력자로 이용한다는, 아직은 완전히 달성되지 못한 미래의 청사진에도 쉽게 납득할 수 있게 되었고요.

그런데 대화에는 정보 전달뿐만 아니라 관계 형성이라는 부가 기능이 따라붙습니다. 게다가 특정 AI 모델이 연속성 있는 대화가 가능한 수준이며 특유의 말투까지 갖췄다면 인간이 느끼는 관계 형성은 충분히 깊어질 수 있습니다. GPT-4o 모델이 딱 그랬고요.

AI 챗봇의 사용자 경험

얼마 전까지 ‘챗GPT 말투’라는 것이 밈이었습니다. ‘와, 너 정말 정곡을 찔렀어!’ 같이, GPT-4o 모델 특유의 아첨하는 듯한 말투를 유머로 사용한 겁니다. 그런데 이 현상을 뒤집어 보면, 사람들이 특유의 말투에서 챗GPT를 연상할 정도로 확실한 개성을 느꼈다는 얘기가 됩니다. 우리는 그런 개성을 가진 AI 모델과 일종의 ‘관계’를 형성했던 것이죠.

그런데 오픈AI는 GPT-5를 발표하면서 이런 개성을 삭제했습니다. 이런 변화는 챗GPT 서비스를 밀도 있게 사용하던 사용자에게는 도구 업그레이드가 아니라 ‘파트너 교체’로 느껴질 수 있습니다. 즉, 나와 함께 쭉 일하던 동료가 갑자기 퇴사하고 전혀 다른 성격의 새로운 직원이 그 자리에 들어온 셈입니다. GPT-4o 직원에게도, GPT-5 직원에게도 나름의 장단점이 있을 수 있겠죠. 후자가 일은 더 잘할 수도 있고요. 하지만 변화는 스트레스를 만듭니다. 변화 이전의 상황에 충분히 적응된 상황이라면 더욱 그렇고요.

프린스턴대학 컴퓨터과학과의 아르빈드 나라야난(Arvind Narayanan) 교수는 바로 이 지점을 지적합니다. AI 기업들이 모델의 성능 향상에만 치중할 뿐, 사용자 경험의 부분은 무시한다는 겁니다.

GPT-5 출시 직후 성능 향상의 증거로 샘 올트먼은 추론 모델의 사용이 증가했다고 밝혔는데, 수치를 보면 무료 사용자는 1퍼센트 미만에서 7퍼센트로, Plus 요금제 사용자는 7퍼센트에서 24퍼센트로 증가했다고 합니다. 그런데 나라야난 교수는 이 데이터가 그동안 사람들이 추론 모델을 거의 사용하지 않았다는 사실을 보여주는 증거일 뿐이라고 이야기합니다. 새로운 기술은 일상으로 스며드는 데 오랜 시간이 걸립니다. 이것은 그저 인간 행동의 속성입니다. 사람들은 쓰던 대로 씁니다.

챗GPT에는 ‘Deep Research’나 ‘Agent Mode’처럼 사용자가 새로 기능을 익히고 감독하며, 정보를 어디까지 입력할 것인지 결정하며 사용해야 하는 고급 기능이 있습니다. 하지만 대다수는 사용하지 않습니다. 익숙한 도구가 아니기 때문입니다. 즉, 오픈AI는 이런 고급 기능의 사용자 경험을 설계하는 데에 실패했습니다.

GPT-4o와 GPT-5처럼 일반적인 대화로 잘 작동하는 모델의 경우에는 모델의 ‘페르소나(persona)’가 사용자 경험을 좌우합니다. 이번 GPT-5의 사용자 경험은 그다지 성공적이지 못했던 것 같습니다. 너무 차갑고 딱딱하다는 평가가 많거든요. 물론, 현재 독과점에 가까운 시장 지배 구조상 여기에도 사용자들이 적응해 갈 겁니다. 하지만 앞으로는 상황이 달라질 수 있습니다. 최근 앤트로픽은 대형 언어 모델에는 예기치 않게 성격 특성이 변하는 문제가 내재되어 있다는 사실과, 이를 완화하는 방법을 연구한 결과를 논문으로 발표하기도 했습니다.

스타트업의 숙명

하지만 설익은 에이젠틱 모델이나 페르소나 변화 등은 GPT-5 모델 자체의 문제입니다. 이번에 사용자들을 실망하게 한 가장 큰 요인은 아마도 샘 올트먼이 이번 모델이 얼마나 대단할 것인지 끊임없이 이야기해 왔기 때문일 겁니다. 마치 AGI를 개발한 것처럼 ‘두려움을 느꼈다’라고까지 했으니까요.

하지만 과장이었습니다. GPT-5가 정말 엄청난 발전이고 혁신인 것처럼 세뇌라도 하려는 것 아니었나 싶을 정도로요. 하지만 샘 올트먼에게 GPT-5는 혁신이어야 했습니다. 패러다임을 뒤집을만한 사건이어야 했죠. 오픈AI는 구글이나 메타가 아니기 때문입니다. 벌어들이는 막대한 수익으로 생성형 AI를 개발하고 있는 것이 아닙니다. 적자를 감수하고 회사를 굴리고 있습니다. 이걸 지속하려면 꾸준히 투자를 받아야 합니다. 점점 더 많은 돈이 필요합니다.

투자자를 설득할 수 있는 것은 미래의 청사진입니다. 오픈AI의 경우에는 AGI 개발이 되겠죠. 인간을 뛰어넘는 일반 인공 지능이 현실이 되면, 그 생산성 폭발의 열매를 투자자들이 나누어 맛보게 될 것이라는 약속 말입니다. 그 중간 단계로서 GPT-5는 중요한 의미를 지닙니다. 지난 2023년 오픈AI는 AGI를 언급하며 GPT-5의 개발을 위해 막대한 투자를 받았습니다. 하지만 개발 과정은 순탄치 않았죠. 일정이 지연되면서 비용은 눈덩이처럼 불어났습니다. 주요 투자자인 마이크로소프트는 2024년 중반 공개를 기대했지만, 그 일정에는 맞출 수 없었습니다.

그리고 지금은 무엇보다, ‘스타게이트 프로젝트’가 문제입니다. 엄청난 컴퓨팅 파워를 오픈AI에 공급하게 될, 5000억 달러 규모의 하이퍼스케일 데이터센터 건설 프로젝트입니다. AGI 달성을 위해 꼭 성공해야 하는 프로젝트입니다. 발표는 화려했지만, 진행은 지지부진입니다. 

GPT-5가 조급하게 발표된 이유가, 그리고 완벽하지 않은 AI 모델을 두고 샘 올트먼이 혁신이라 거듭 강조했던 이유가 보입니다. 오픈AI는 이제 투자자들의 기대를 충족시키기 위해 일정에 쫓기고 스텝이 꼬이는 단계에 접어든 겁니다. GPT-5는 생각보다는 꽤 괜찮은 모델일 수 있습니다. 하지만 오픈AI의 혁신이 어떤 한계에 부딪혔다는 신호이기도 합니다. 구글의 제미나이, 일론 머스크가 지휘하는 xAI의 그록 등이 약진하고 있죠. 생성형 AI의 판이 점점 흥미로워지고 있습니다.
* bkjn review 시리즈는 월~목 오후 5시에 발행됩니다. 테크와 컬처, 국제 정치를 새로운 시각으로 이야기합니다.
다음 이야기가 궁금하신가요?
프라임 멤버가 되시고 모든 콘텐츠를 무제한 이용하세요.
프라임 가입하기
추천 콘텐츠
Close