구글이 반년 만에 로봇용 인공지능(AI) ‘제미나이 로보틱스’ 업그레이드 버전을 선보였다. 보다 발전된 추론 능력을 바탕으로 실생활에 대한 이해력을 높여 사람과 유사한 작업이 가능해졌다. 또 한 번 학습한 작업은 구조가 다른 로봇에서도 작용할 수 있게 돼 범용성이 높아졌다. 구글이 챗봇·에이전트 중심 AI 경쟁에서 한 발 더 나아가 차세대 피지컬 AI ‘표준 모델’ 선점에 공을 들이고 있다는 분석이 나온다.
구글 딥마인드는 24일(현지 시간) 로봇 전용 AI 모델 ‘제미나이 로보틱스·ER 1.5’를 공개했다. 올 3월 제미나이 로보틱스 첫 공개 후 반년 만에 이뤄진 업데이트다. 제미나이 로보틱스는 시각·언어·행동(VLA) 결합 모델로 시각 정보와 언어 명령을 로봇의 모터 동작으로 변환한다. 로보틱스 ER은 시각 정보를 통해 실제 물리 공간을 추론하고 로봇이 필요한 프로그램을 호출해 명령을 마무리할 수 있도록 하는 모델이다. 구글은 “환경을 능동적으로 이해할 수 있어 복잡한 작업이 가능한 유능하고 다재다능한 로봇을 구축하는 데 도움이 될 것”이라고 소개했다.
이를 통합한 제미나이 로보틱스 1.5는 전 세대 모델보다 ‘실제 세계’를 보다 정확히 이해해 복잡한 작업이 가능해졌다. “옷을 색깔별로 분류해줘”라는 명령을 받으면 단순히 색상만 고려하지 않고 옷의 재질과 무게, 쌓인 형태 등을 고려해 정리하는 등 보다 정교해졌다. 사전에 학습하지 않은 작업도 인터넷 검색 등을 통한 종합 추론으로 대응할 수 있다. 로봇에 “내 위치를 기반으로 눈 앞의 물체들을 분리수거해줘”라고 요구하면 지역별 재활용 지침을 검색해 눈 앞의 물체를 일반 쓰레기·음식물·플라스틱·캔 등으로 분류한 후 행동으로 옮기는 식이다.
기존 방식처럼 로봇마다 별도 모델을 구축해 학습할 필요도 없어졌다. 로봇은 모두 디자인이 다르고 구동 부위와 모터 성능도 제각각이다. 제미나이 로보틱스 1.5는 구현 형태에 관계 없이 한 로봇에서 학습한 동작을 다른 로봇에 전송할 수 있도록 했다. 향후 휴머노이드 로봇이 대거 출시됐을 때 호환성이 보장되는 셈이다. 구글은 “단순히 명령에 반응하는 모델을 넘어 추론하고, 계획하고, 도구를 능동적으로 사용하는 일반 시스템을 만들고 있다”고 강조했다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >