'SW위기 촉발' 앤트로픽, 더 강력한 AI '클로드 오퍼스4.6' 출시

정성진 기자

작성 2026.02.06 04:54 수정 2026.02.06 05:03 조회수

▲ 다리오 아모데이 앤트로픽 최고경영자(CEO)

인공지능발 소프트웨어 위기론의 진원지인 앤트로픽이 더 강력한 AI 모델을 선보였습니다.

앤트로픽은 자사의 AI 챗봇 '클로드'의 최상위 모델 '오퍼스 4.6'을 출시한다고 현지시간 5일 밝혔습니다.

지난해 11월 말에 이전 판인 '오퍼스 4.5'를 선보인 지 불과 2개월여 만에 새 버전을 내놓은 것입니다.

오퍼스 4.6에서 가장 주목되는 기능은 '에이전트 팀'의 도입입니다.

AI 에이전트를 하나가 아니라 여럿 부릴 수 있는 기능입니다.

앤트로픽의 제품 총괄인 스콧 화이트는 미 정보기술 전문매체 테크크런치에 "한 에이전트가 작업을 차례로 처리하도록 하는 대신 여러 에이전트에 작업을 나눠 줄 수 있다"며 이를 통해 에이전트들이 "협업하고 작업을 더 빨리할 수 있다"고 설명했습니다.

이 기능이 최근 클로드가 선보여 SW 관련 기업의 주가를 폭락시켰던 '클로드 코워크'와 결합하면 파급력이 배가될 것으로 추정됩니다.

화이트 총괄은 "개발자가 아닌 사람들도 단지 작업 수행 능력을 보고 클로드 코드를 많이 이용한다는 점을 확인했다"면서 자사 AI 모델 이용자들이 제품관리자, 금융분석가 등 다양한 영역에 퍼져 있다고 설명했습니다.

실제로 앤트로픽이 공개한 벤치마크 점수를 보면 오퍼스 4.6은 코딩뿐 아니라 지식 노동 분야에서 경쟁사들을 압도하는 성능을 보였습니다.

사무업무 능력을 평가하는 'GDPval-AA' 지표에서 1천606점을 기록해 오픈AI의 GPT-5.2의 1천462점과 구글 제미나이3 프로의 1천195점을 넘어섰습니다.

오픈AI가 지난해 공개한, 정보 검색 능력을 측정하는 벤치마크 '브라우즈컴프'에서도 오퍼스 4.6은 84%의 성과를 보여 GPT-5.2 77.9%·제미나이3 프로 59.2%를 능가했습니다.

코딩 능력을 측정하는 'SWE-벤치 베리파이드' 점수는 80.8%로 이전 버전의 80.9%보다 미세하게 떨어졌지만, 여전히 GPT-5.2나 제미나이3 프로보다는 높았습니다.

분야별 전문가급 문제들을 모아 '인류의 마지막 시험'으로 불리는 HLE 점수도 현존 AI 모델 중 처음으로 도구 미사용 기준 점수 40%를 달성했습니다.

한 번에 입력할 수 있는 데이터양을 100만 토큰으로 늘려, 책 수십 권 분량의 데이터를 입력받아 처리할 수 있도록 했습니다.

또 마이크로소프트의 엑셀과 파워포인트에 클로드를 통합해 AI가 데이터 분석부터 프레젠테이션 생성까지 처리하는 기능도 추가됐습니다.

오퍼스 4.6은 이날부터 사용할 수 있습니다.

개발자들이 사용하는 API 가격도 이번 버전과 마찬가지로 100만 토큰당 5∼25달러로 유지됐습니다.

(사진=AP, 연합뉴스)