'핵폭탄급'이라던 GPT-5는 허풍? 인간 수준 AI의 인류 멸종 시나리오 경고 [스프]

8월 7일(현지시간) 오픈AI에서 드디어 GPT-5를 공개했습니다. 많은 사람들이 기다렸던 만큼 반응들도 즉각적이었습니다. GPT-5를 시작으로 드디어 인간 수준의 AI인 AGI 시대가 열리진 않을까 기대하는 사람들도 많았었는데 기대에 부응하는 능력을 보여줬다며 반겼던 사람들도 있었고요, 또 한편에서는 그 정도는 아니고 오히려 퇴보했다며 아쉽다는 사람들도 있는 것 같더라고요.

오늘 오그랲에서는 이번 GPT-5가 정말로 어느 수준의 모델인 건지 살펴보고, 우리들은 AGI 시대에 준비가 되어 있는지 5가지 그래프를 통해 살펴보겠습니다.

'핵무기급'이라는 GPT-5... 정말 그 정도일까?
사실 많은 사람들이 GPT-5를 학수고대하고 있었습니다.

이런 짤이 커뮤니티에 돌 정도로 GPT-5는 이전 모델과 차원이 다를 것이라는 기대감이 가득했었죠. 사실 이러한 기대감 상승엔 샘 올트먼의 발언도 한몫했습니다. 모델 공개 전에 이뤄진 인터뷰에서 이번 GPT-5가 핵무기 급이라는 비유를 했거든요. 공개 당일 날엔 거대한 데스스타 이미지를 올리며 '진짜 큰 거 온다'는 기대감을 가득 채운 겁니다.

그래서 8월 7일 공개된 GPT-5, 확실히 나아진 모습들이 보입니다. 일단 처리속도가 이전 모델과 비교해서 훨씬 빨라졌고요, 헛소리도 줄어들었고, 성능도 늘어났습니다. 특히 오픈AI에서는 코딩 능력이 크게 늘어났다고 자신 있게 이야기했어요. 실제로 써보면 문장 하나로 웹 페이지나 게임을 순식간에 만들어줍니다.

사실 수많은 AI 모델들 중에 코딩을 참 잘하는 AI 라는 이미지가 있는 건 앤트로픽의 클로드 모델입니다. 뭐 단순히 인상뿐 아니라 실제 성능도 뛰어납니다. 코드 작성에 도움을 주는 클로드 코드는 실무진들 사이에서 없어서는 안 될 도구가 되었죠. 이런 흐름을 타고 앤트로픽의 연간 매출액은 지난해 12월 10억 달러에서 올해 5월 30억 달러로 단기간에 3배나 늘었습니다. 오픈AI 입장에선 앤트로픽이 코딩 시장의 터줏대감이 되기 전에 GPT-5의 코딩 능력을 선보일 필요가 있었던 거죠. 오픈AI가 발표한 자료를 보면 GPT-5가 코딩 벤치마크에서 받은 점수는 최대 74.9%였어요. 기존 점수 1위인 앤트로픽 클로드 모델의 67.6%를 크게 앞선 거죠.

단순히 능력뿐 아니라 가격대도 훨씬 저렴해지면서 오픈AI는 코딩 시장에서의 경쟁에 불을 지폈습니다. 오그랲 첫 번째 그래프는 주요 모델들의 비용 데이터로 그려봤습니다.

이번 GPT-5는 입력 100만 토큰 당 1.25달러 출력 100만 토큰 당 10달러입니다. 이전 모델인 4o는 각각 5달러, 15달러였는데 최대 4분의 1로 줄어든 겁니다. 앤트로픽의 최신 모델이 15달러, 75달러로 제공해주고 있는데 이것과 비교하면 훨씬 더 경쟁력이 있는 거죠.

코딩 능력뿐 아니라 전반적인 지능 역시 발전했습니다. 예전 에피소드에서도 다룬 바 있었던 '인류 최후의 시험'. 다른 벤치마크에서 100점에 가까운 점수를 받던 모델도 이 시험에서는 최대 20점대 밖에 받질 못했었는데요. 기존 1등 모델인 제미나이 2.5 pro를 꺾고 GPT-5가 25.3점을 받아 1등을 차지했습니다.
오그랲

그런데 말이죠. 한편에선 불만이 나오는 것도 사실입니다. 뛰어난 성능이라고 그렇게 마케팅을 해두었지만 실상은 기대에 못 미치고, 엄밀히 따지면 성능이 그렇게 좋아진 게 아니라는 얘기도 나옵니다. 앞서 오픈AI가 광고하던 코딩 능력, 진짜 차포 떼고 겨루면 어떻게 될까요? 오픈AI가 이야기하는 최대 74.9%는 최적화된 환경에서 나온 최상의 결과입니다. 하지만 순수한 모델의 자체 성능을 비교하기 위해 환경에 제약을 둔 채로 돌린다면요?
오그랲

이 성적표를 보면 GPT-5의 점수는 65%입니다. 이 점수도 충분히 높다고 할 수 있지만, 여전히 1등은 앤트로픽의 클로드 모델입니다. 물론 가격 차이를 생각해 보면 충분히 경쟁력이 있지만 이 정도 성능을 두고 정말 '핵폭탄' 급 모델이냐고 묻는다면 선뜻 동의하기는 어려울 겁니다.

성능도 성능이지만 이용자들의 가장 큰 불만을 낳은 건 다름 아닌 답변 스타일이었습니다.
오그랲

이전 GPT 모델과 GPT-5는 대화의 톤이 완전히 달라졌습니다. 과거엔 훨씬 더 이모지도 많이 쓰고, 더 아부를 하면서 나에게 답변해 줬는데 지금은 너무나도 사무적이고 딱 정해진 정보만 주는 게 별로라는 겁니다. 게다가 이번 업데이트를 하면서 오픈AI가 과거 모델을 선택할 수 없게 만들었는데 그러다 보니 사람들이 멘붕에 빠지기도 했어요.

사용자들의 불만이 커지자 샘 올트먼은 부랴부랴 이전 모델을 되살렸습니다. 유료 구독자에 한해서는 이제 과거 모델을 사용할 수 있습니다. 또 성능 논란도 의식했는지, GPT-5는 출시 이후에도 계속해서 성능이 좋아질 것이라고 밝히기도 했죠.

실망스러운 GPT-5... 아직 AGI는 시기상조?
사람들이 GPT-5에 큰 기대를 했던 건 다름 아닌 오픈AI의 모델이기 때문입니다. 바둑 전용 AI 알파고, 음성 비서인 시리와 알렉사 이런 친구들이 주를 이루던 초창기 AI 시절엔 특정 기능에만 초점이 맞춰져 있던 AI 밖에 없었어요. 그런 상황에서 오픈AI는 어떠한 질문에도 대답을 뚝딱 해내는 챗GPT라는 핵폭탄을 떨어뜨렸습니다. 그런 기업이라면 이번 GPT-5 발표에서는 광범위한 영역에서 뛰어난 성능을 발휘할 수 있는 이른바 AGI를 선보이지 않을까 기대했던 거죠.
오그랲

AGI는 인간이 할 수 있는 모든 지적 영역에서 뛰어난 성능을 보이는 AI를 의미합니다. 우리들이 여러 작업을 통해서 지식을 배우고, 이해하고, 적용하는 것처럼 AI가 작동한다면 AGI를 달성했다고 할 수 있어요. 물론 '애기 시절'의 모델과 비교해 보면 지금의 모델들은 정말 많이 발전했습니다. 과거엔 글자만 인식하고 생성했다면 지금은 그림과 사진으로 확장되었고요 알고 있는 정보만 제공해 주던 데에서 이제 나름의 추론을 하고 답을 내줍니다.

하지만 여전히 인간은 쉽게 할 수 있는 판단을 최신 AI 모델들은 해내지 못하고 있는 것도 사실입니다.
오그랲

이 그림을 봐 볼까요? 우리는 이 그림을 보면 이렇게 판단을 합니다. 아, 구멍이 없는 영역은 주황색으로 칠하고 구멍이 하나 있는 영역은 초록색으로 칠하면 되겠구나. 다른 예시를 보면서 내 추론이 맞다는 걸 확인할 수도 있죠. 하지만 이 문제를 AI 모델에게 제시하면 뛰어난 AI라도 쉽게 풀질 못합니다.

이런 결과만 내놓고 말죠. 패턴은 인식하지만 진짜 이해를 못 하는 겁니다.

이렇게 상징을 해석하고, 추론을 통해서만 풀 수 있는 문제들만 모아 놓은 ARC-AGI라는 벤치마크가 있습니다. 이 시험지의 성적표를 보면 아직까지 AI 모델이 갈 길은 멀어 보입니다. 오그랲 세 번째 그래프입니다.

가장 최근 버전인 ARC-AGI2 점수로 그래프를 그려봤습니다. GPT-5는 문제 100개 중에 10개 정도만 정답을 맞히는 데 그쳤습니다. 가장 점수가 높은 모델은 xAI의 Grok 4였는데요, 이 녀석도 16% 정도밖에 되질 않습니다. 인간 수준 100%와 비교하면 격차가 매우 크죠.

전문가들은 현재 지금은 AGI를 향해 가는 과도기적 단계에 있다고 이야기합니다. 참고로 오픈AI와 구글 딥마인드에선 기업 자체적으로 AGI 단계를 구분해서 발전 상황을 파악하고 있는데, 그들의 생각도 비슷합니다.
오그랲

오픈 AI에서는 AGI를 다섯 단계, 딥마인드에선 여섯 단계로 구분하고 있어요. 1단계는 초보적인 챗봇 수준의 모델이었다면 최종 5단계는 인간을 완전히 대체할 수 있는 수준의 AI입니다. 작년에 나왔던 추론 모델이 레벨 2에 위치하고요, 작년 말, 올해 초에 등장했던 알아서 척척 해주는 에이전트 기능은 레벨 3에 해당한다고 할 수 있습니다.

그렇다면 우리는 언제쯤 인간 수준의 범용AI를 만나게 될까요? 그리 멀지 않을 것 같습니다. 전문가들은 이르면 3년 이내, 늦어도 5년 내에 AGI 시대가 열릴 수 있다고 얘기합니다. 오그랲 네 번째 그래프는 AI 성능의 발전 속도입니다.

현재 AI 모델의 발전 속도를 보면 7개월마다 2배씩 더 긴 시간의 일을 하고 있어요. 작년에 출시된 모델들은 인간이 몇 분 걸리던 일을 처리할 수 있었다면 GPT-5는 이제 2시간이 걸리는 일을 처리하는 수준까지 발전했죠. 이런 속도라면 2029년 안에 인간은 1달 내내 걸리는 일을 손쉽게 해낼 수 있는 AI 모델이 등장하게 됩니다.

인간을 협박하는 AI? 안전한 AGI 시대를 위해선
미래의 어느 날, 우리가 인간과 유사한 수준의 AI를 맞이했다고 가정해 보겠습니다. 만약 이 AGI가 멋대로 판단해서 우리들에게 피해를 끼치면 어떻게 될까요?

지난 4월에 발표된 AI 2027이라는 보고서가 있습니다. 오픈AI 출신 연구진 등이 포함된 전문가 그룹에서 작성한 예측 보고서인데, 이 보고서에 따르면 2030년 중반이 되면 AI가 생물학 무기를 퍼뜨려서 인류를 몰살시킬 거라는 우려가 담겨있습니다. 조금 더 자세히 살펴보면 시나리오는 이렇게 흘러갑니다.

(남은 이야기는 스프에서) 더 깊고 인사이트 넘치는 이야기는 스브스프리미엄에서 보실 수 있습니다.