앤트로픽, 클로드 3.5 소네트 출시…GPT-4o보다 뛰어나다?
인공지능(AI) 스타트업 앤트로픽(Anthropic)이 신규 AI 모델 ‘클로드 3.5 소네트(Claude 3.5 Sonnet)를 출시했다.
앤트로픽은 지난 2021년 오픈 AI 출신 다리오 아모데이와 대니엘라 아모데이가 설립했다. 지난해에는 아마존, 구글, 세일즈포스 등 빅테크 기업에서 총 73억 달러 투자를 유치한 바 있다.
클로드 3.5 소네트는 생성 AI 모델이다. 오픈 AI GPT나 구글 제미나이처럼 개인 맞춤형 답변을 생성한다. 멀티모달 기능도 갖췄다. 멀티모달이란 텍스트, 이미지, 음성 등 다양한 데이터를 동시에 처리할 수 있는 기술을 뜻한다. 텍스트와 이미지를 분석할 수 있도록 업그레이드했다.
분석 가능한 텍스트 양은 토큰 20만 개로 클로드 3 소네트와 동일하다. 토큰은 단어의 음절을 말한다. 만약 ‘fantastic’이라는 단어를 입력했다면, ‘fan’, ‘tas’, ‘tic’ 3개로 인식한다.
앤트로픽 유튜브를 통해 공개된 시연 영상을 보면 성능을 어느 정도 짐작할 수 있다. 사용자가 ‘해변에 게와 조개가 등장하는 8비트 게임을 만들어 달라’고 요청하자 코드를 전부 생성하는 모습을 보였다. 코딩을 모르는 사용자도 원하는 애플리케이션을 제작할 수 있게 된다.
AI가 생성한 문서나 코드를 띄워주는 전용 창 기능인 ‘아티팩트(Artifacts)’도 제공한다. 편집이나 저장도 가능하다. 즉각 활용할 수 있게 문서로 정리해 주기 때문에 코드 개발이나 비즈니스 보고서 작성 등에 유용해 보인다.
앤트로픽은 지금껏 출시한 AI 모델 중 성능이 가장 뛰어나다고 강조했다. 공식 블로그에서는 ‘뉘앙스, 유머, 복잡한 요구사항을 파악해 자연스러운 어조로 수준 높은 답변을 제공한다’고 밝혔다. 텍스트뿐만 아니라 코드를 작성, 편집, 실행할 수 있는 기능도 추가했다고 설명했다.
최상위 모델이던 클로드 3 오퍼스보다 성능이 좋다. 클로드 3 오퍼스는 지난해 3월 출시된 클로드 3 제품군 중 하나다. 클로드 3는 규모에 따라 △하이쿠 △소네트 △오퍼스까지 총 3가지 모델로 나뉜다. 하이쿠는 간단한 작업을 빠르고 정확하게 처리할 수 있는 소형 모델이다. 소네트는 논리적 추론을 통해 코드나 텍스트를 생성할 수 있는 중형 모델이다. 오퍼스는 가장 복잡한 작업을 처리하는 최상위 모델이다.
자체 진행한 벤치마크 점수도 공개했다. 눈에 띄는 점은 GPT-4o보다 대다수 항목에서 높은 점수를 기록했다는 점이다.
클로드 3.5 소네트가 우위를 점한 항목은 △시각적 수학 추론 △과학 다이어그램 △차트 질의응답 △시각적 문서 질의응답 등이 있다. 시각적 수학 추론은 시각적 요소를 사용해 수학 개념을 이해하고 문제를 해결하는 능력이다. 그래프, 도형, 그림 등을 활용해 수학 문제를 분석한다. 과학 다이어그램 역시 과학 분야에서 쓰이는 다이어그램을 분석하는 능력이다. 차트나 문서에 등장한 이미지 관련 질문을 던져도 막힘없이 대답한다.
점수 차가 가장 큰 건 차트를 바탕으로 질의응답을 주고받는 테스트다. 클로드 3.5 소네트는 90.8%, GPT-4o는 85.7% 정확도를 보였다. 이 외에도 △대학원급 추론 능력 △코드 작성 △다국어 수학 해석 능력 △텍스트 추론 능력 등 대다수 항목에서 GPT-4o보다 높은 점수를 얻었다.
다만, IT 전문 매체 테크크런치(Techcrunch)는 벤치마크 점수만으로 성능을 판단할 수는 없다고 당부했다. 실제로는 엉뚱한 답변을 내놓을 가능성도 있다.
구글이 지난 5월에 선보인 AI 오버뷰(Overview)만 해도 그렇다. AI 오버뷰는 생성 AI를 활용한 구글 검색 기능이다. 하지만 ‘피자에 치즈가 달라붙지 않는다’는 질문에 ‘무독성 접착제 8분의 1컵을 추가하라’는 답변을 제시하는 오류를 범했다.
클로드 3.5 소네트 역시 특정 질문에서 실수한다고 알려졌다. 외신에서는 AI가 잘못된 답변을 내놓는 환각(할루시네이션) 현상을 완전히 해결하진 못한 듯하다고 평가했다.
클로드 3.5 소네트는 오늘부터 앤트로픽 웹사이트와 iOS 앱을 통해 무료로 이용할 수 있다. 앤트로픽은 현재 많은 기업에서 클로드를 사용하고 있다며, 추후 업데이트를 통해 성능을 업그레이드하겠다고 밝혔다.
댓글 많은 뉴스