글을 읽고 답하던 챗GPT가 이제는 이미지와 음성도 이해한다.
오픈AI는 25일(현지시각) 챗GPT에 이미지와 음성을 인식하는 기능을 추가했다고 밝혔다. 새 기능은 유료 서비스인 챗GPT플러스·챗GPT 엔터프라이즈 이용자에 제공된다. 앞으로 2주 동안 순차적으로 배포될 예정이다.
기존에는 문자 프롬프트로 챗GPT와 소통할 수 있었지만 이제는 음성으로 대화할 수 있게 됐다. 버튼을 누르고 음성으로 질문하면 답변도 말로 들을 수 있다. 답변 목소리는 우선 5개 종류를 제공한다. 원하는 이미지를 첨부하고 이에 대한 질문을 할 수도 있다. 예컨대 자전거 사진을 올린 뒤 “안장을 낮추려면 어떻게 해야 하는지?”라고 물으면 사진을 분석한 챗GPT가 답변을 내놓는 식이다.
오픈AI는 앞서 지난 3월 최신 대형언어모델(LLM) GPT-4를 출시하며 멀티모달 기능을 예고했다. 당시 새 모델에 이미지 인식과 같은 멀티모달 기능이 적용됐다고 소개한 뒤 6개월 만에 실서비스로 출시한 것이다. 다만 멀티모달 챗GPT가 나온 시점을 두고 구글을 의식한 것 아니냐는 분석도 나온다. 구글이 칼을 갈고 고도화 중인 차세대 LLM ‘제미니(Gemini)’가 멀티모달 기능에 중점을 두고 있다는 소식이 전해지고 있는 상황에서 오픈AI가 먼저 선수를 쳤다는 것이다. 제미니는 현재 일부 기업에 초기 버전이 제공됐으며 일반 대상 출시도 임박한 것으로 전해졌다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >