전체메뉴

검색
팝업창 닫기
이메일보내기

'GPU 효율 높이고 AI 학습 비용 낮추는' 기술, 국내 연구진 개발

카이스트 유민수 교수 연구팀

삼성종합기술원, 공동연구로 vTrain 개발

GPU 사용률 10% 향상·학습 비용 5% 절감

학습 시간 측정 데이터 등 오픈소스 공개

사진=이미지 투데이




최근 챗GPT나 딥시크(DeepSeek) 같은 생성형 인공지능(AI) 프로그램은 수많은 데이터를 학습해 비로소 최적의 정보를 도출해낸다. 이를 위해서는 GPU(고성능 그래픽 처리 장치)가 들어 있는 거대한 컴퓨터 시스템이 필요한데, 가장 널리 쓰이는 ‘GPT-4’를 학습시키기 위해서는 약 1400억 원의 비용이 소요된다. 이런 이유로 현재 많은 기업들은 GPU를 100% 활용하지 못하고, 몇 가지 경험적으로 검증된 소수의 전략만 활용하고 있다. 이는 결국 GPU 활용의 비효율성과 불필요한 비용 증가라는 또 다른 문제로 이어진다.

최근 한국 연구진은 이같은 문제를 극복하고자, GPU 사용의 효율성을 높이고 학습에 드는 비용을 획기적으로 줄이는 기술을 개발해 공개했다. 특히 연구진은 관련 데이터를 오픈 소스로 공개해 관심이 쏠린다.

카이스트(KAIST)는 유민수 전기및전자공학부 교수 연구팀이 삼성종합기술원과 공동연구를 통해, 대규모 분산 시스템에서 대형 언어 모델(LLM)의 학습 시간을 예측하고 최적화할 수 있는 시뮬레이션 프레임워크(이하 vTrain)를 개발했다고 13일 밝혔다.

LLM의 학습 효율을 높이려면 최적의 분산 학습 전략을 찾는 것이 필수적이다. 그러나 가능한 전략의 경우의 수가 방대하고 실제 환경에서 각 전략의 성능을 테스트 하는 데 막대한 비용과 시간이 들어간다. 이에 카이스트 연구팀은 ‘vTrain’이라는 기술을 개발해 대형 언어 모델의 학습 시간을 정확히 예측하고, 다양한 분산 병렬화 전략을 빠르게 탐색할 수 있는 길을 열었다.



‘vTrain’은 AI 모델을 훈련할 때 걸리는 시간을 예측하는 기술로, 여러 개의 GPU를 사용할 때, 얼마나 효율적으로 분산해서 학습할 수 있는지 예측한다. 연구팀은 다양한 GPU 환경에서 ‘vTrain’을 활용해 실험을 진행했다. 그 결과 단일노드(8개 A100 GPU)의 오차율은 8.37%, 다중 노드(최대 512개 A100 GPU) 오차율은 14.73%로 나타났다.

연구진은 또한 특정 대형언어모델의 기존 학습 전략과 ‘vTrain’을 이용한 최적화 학습 전략을 비교했다. 그 결과 기존 경험적 방식 대비 GPU 사용률을 10% 이상 향상시키면서도 학습 비용을 5% 이상 절감할 수 있다는 사실을 확인했다.

연구팀은 이번 연구를 삼성전자 삼성종합기술원와 공동으로 진행했으며, ‘vTrain’ 프레임워크와 1500개 이상의 실제 학습 시간 측정 데이터를 오픈소스로 공개해 AI 연구자와 기업이 이를 자유롭게 활용할 수 있도록 할 예정이다.

유민수 KAIST ㅈㅓㄴㄱㅣㅁㅣㅊㅈㅓㄴㅈㅏㄱㅗㅇㅎㅏㄱㅂㅜ ㄱㅛㅅㅜ. 사진제공=카이스트


유민수 교수는 “vTrain은 프로파일링 기반 시뮬레이션 기법으로 기존 경험적 방식 대비 GPU 사용률을 높이고 학습 비용을 절감할 수 있는 학습 전략을 탐색했으며, 오픈소스를 공개했다"며 "이를 통해 기업들은 초거대 인공지능 모델 학습 비용을 효율적으로 절감할 것이다”라고 말했다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >
주소 : 서울특별시 종로구 율곡로 6 트윈트리타워 B동 14~16층 대표전화 : 02) 724-8600
상호 : 서울경제신문사업자번호 : 208-81-10310대표자 : 손동영등록번호 : 서울 가 00224등록일자 : 1988.05.13
인터넷신문 등록번호 : 서울 아04065 등록일자 : 2016.04.26발행일자 : 2016.04.01발행 ·편집인 : 손동영청소년보호책임자 : 신한수
서울경제의 모든 콘텐트는 저작권법의 보호를 받는 바, 무단 전재·복사·배포 등은 법적 제재를 받을 수 있습니다.
Copyright ⓒ Sedaily, All right reserved

서울경제를 팔로우하세요!

서울경제신문

텔레그램 뉴스채널

서경 마켓시그널

헬로홈즈

미미상인