사람들이 셰익스피어 등 유명 시인의 시와 생성형 인공지능(AI)가 쓴 시를 확실히 구분하지 못하며, 되레 AI가 지은 시를 더 선호한다는 연구 결과가 나왔다. 미국 피츠버그대 브라이언 포터 박사팀은 15일 과학 저널 사이언티픽 리포트(Scientific Reports)에 이같은 내용을 발표했다.
연구팀은 유명 시인 10명의 시와 이들의 시를 모방해 챗GPT3.5가 지어낸 시를 일반인에게 제시한 뒤 구분하고 평가하게 했다. 첫번째 실험에선 1634명을 대상으로 AI가 생성한 시와 유명 시인의 시를 구별하는 테스트를, 두 번째 실험에서는 696명을 대상으로 AI의 시와 시인들의 시에 대해 아름다움, 리듬, 독창성 등 14가지 특성을 평가하게 했다. 실험에서는 14세기 시인 제프리 초서부터 윌리엄 셰익스피어, 월트 휘트먼, TS 엘리엇, 현대의 도러시 아라스키 등 유명 시인 10명의 시 50편과 챗GPT3.5가 이들의 시를 모방해 지은 시 50편이 활용됐다.
첫 번째 실험에서 유명 시인의 시 5편과 AI의 시 5편을 무작위로 제시한 다음 시인과 AI의 시를 구별케 한 결과, 정확도는 46.6%에 불과했다. 무작위로 찍을 경우 나오는 기대값 50%에도 못 미치는 셈이다. 심지어 시인이 썼을 가능성이 가장 낮다고 평가된 시 5편은 실제 시인이 쓴 것에 해당했다.
두 번째 실험에서는 참가자들을 세 그룹으로 나눈 다음 각 그룹에 시를 제시할 때 시에 대해 '사람이 쓴 시', 'AI가 쓴 시', '출처 정보 없음' 등 정보를 주고 그 시의 질과 아름다움, 감정, 리듬, 독창성 등 14가지 특성을 평가하게 했다. 그 결과 'AI가 쓴 시'라는 말을 들은 참가자들은 실제 시인이 쓴 시인지 AI가 쓴 시인지 관계없이 '사람이 쓴 시'라는 말을 들은 참가자들에 비해 13가지 특성에서 낮은 점수를 줬다. 다만 ‘시의 출처 정보가 없다’는 말을 들은 참가자들은 AI가 생성한 시를 시인들이 쓴 시보다 더 높은 점수를 줬다.
연구팀은 “시는 생성형 AI가 아직 인간과 구별할 수 없는 수준의 작품을 쓰지 못하는 텍스트 영역 중 하나로 여겨져왔다”면서도 “하지만 이 연구 결과는 생성형 AI의 능력이 시에서도 이미 사람들의 기대를 넘어섰음을 보여준다”고 평가했다. 한편 해당 실험에서 사용된 챗GPT 3.5는 이전 버전이며, 현재는 한층 성능이 향상된 챗GPT 4.0을 서비스하고 있다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >