전체메뉴

검색
팝업창 닫기
이메일보내기

'GPT-4V 맞먹는다'…네이버, 이미지 이해 AI '하이퍼클로바X 비전' 공개

클로바X·클로바 스튜디오 탑재 예정

이미지 상황까지 추론

차트·표·방정식 이해…코딩 지원





네이버가 이미지와 텍스트를 이해하는 멀티모달 거대 언어모델 ‘하이퍼클로바X 비전’을 공개한다. 거대 언어모델(LLM) 하이퍼클로바X를 선보인 지 약 1년만이다.

21일 정보기술(IT) 업계에 따르면 네이버는 조만간 대화형 인공지능(AI) 서비스 ‘클로바X’에 이미지 분석과 추론 능력이 있는 ‘하이퍼클로바X 비전’을 탑재할 예정이다. 하이퍼클로바X 기반의 기업간거래(B2B) 클라우드 솔루션 ‘클로바 스튜디오’에도 도입된다. 하이퍼클로바X 비전은 문서나 이미지 내 글자를 이해하고 상황을 추론할 수 있는 AI다. 한글뿐만 아니라 영어나 한자, 일본어로 작성된 문서도 이해할 수 있다. 네이버는 “텍스트 위주의 소통 창구에서 한 발짝 나아가 사람들에게 더욱더 가까운 형태의 소통으로 발전하고 있다”며“하이퍼클로바X 비전이 다양한 배경을 가진 사람들에게 다방면에서 이로운 AI가 될 수 있도록 각고의 노력과 열정을 바치고 있다”고 설명했다.

하이퍼클로바X 비전은 이미지에 대해 상세하게 설명할 수 있다. 예를 들어 이용자가 어린아이가 양에게 먹이를 주고 있는 모습의 사진을 설명해달라고 요구하면 AI는 아이의 옷차림과 표정, 양의 동작, 사진의 배경까지 서술하는 식이다.

새 클로바X는 이미지에 대한 상황까지 추론할 수 있다. 가령 소고기와 토마토, 양파 사진을 제시하고 어떤 요리를 만들지 질의하면 ‘햄버거’라고 답한다. 요리 방법까지 알려준다.





하이퍼클로바X 비전은 차트와 표, 방정식을 이해할 수 있다. 도형이 포함된 수학 문제를 이해하고 풀이도 제공한다. 하이퍼클로바X 비전은 코딩도 지원한다. 도형이나 차트, 그래프 등을 만드는 데 필요한 코드를 생성할 수 있다.

네이버는 하이퍼클로바X 비전의 성능이 오픈AI의 GPT-4V에 버금간다고 설명했다. 네이버에 따르면 하이퍼클로바X 비전의 MMMU 등 8개 지표 평균 점수는 71.59점으로 GPT-4V(71.63) 대비 0.04점 낮다. 아울러 한국 지역의 문화와 가치를 보다 강력하게 반영했다는 강점도 살렸다.



네이버는 하이퍼클로바X 비전을 지속해서 고도화할 계획이다. 네이버는 “추론 능력을 개선하고 고해상도 처리를 위한 인코더 구조를 변경해서 점진적으로 성능을 향상할 예정”이라고 설명했다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >

주소 : 서울특별시 종로구 율곡로 6 트윈트리타워 B동 14~16층 대표전화 : 02) 724-8600
상호 : 서울경제신문사업자번호 : 208-81-10310대표자 : 손동영등록번호 : 서울 가 00224등록일자 : 1988.05.13
인터넷신문 등록번호 : 서울 아04065 등록일자 : 2016.04.26발행일자 : 2016.04.01발행 ·편집인 : 손동영청소년보호책임자 : 신한수
서울경제의 모든 콘텐트는 저작권법의 보호를 받는 바, 무단 전재·복사·배포 등은 법적 제재를 받을 수 있습니다.
Copyright ⓒ Sedaily, All right reserved

서울경제를 팔로우하세요!

서울경제신문

텔레그램 뉴스채널

서경 마켓시그널

헬로홈즈

미미상인