전체메뉴

검색
팝업창 닫기
이메일보내기

챗GPT에 ‘대학 시험지’ 풀게 했더니…‘경악’할만한 결과 나왔다

연합뉴스




생성형 인공지능(AI) 챗GPT-4로 생성한 답안이 실제 대학교 시험에서 학생들이 직접 작성해 제출한 답안보다 더 높은 점수를 받았다는 연구결과가 나왔다. 답안의 94%는 채점자에게 적발되지 않았다. AI 도구 사용이 대중화되면서 교육과 평가 시스템에 대책 마련이 필요하다는 지적이 나온다.

27일(현지시간) 영국 레딩대 심리·임상언어과학대학 피터 스카프 교수팀은 과학 저널 플로스 ONE에서 이 대학 실제 학부 시험에 AI 작성 답안을 제출하는 엄격한 블라인드 방식 실험에서 이런 결과를 얻었다고 밝혔다.

연구팀은 “이 연구는 지금까지 인간 교육자가 AI 생성 콘텐츠를 구별할 수 있는지 알아보는 실험 중 가장 크고 강력한 블라인드 실험”이라며 “이 결과는 AI가 대학 시험에서도 컴퓨터(인공지능)와 인간을 구별해내는 튜링 테스트를 통과했음을 보여준다”고 했다.

연구팀은 이 연구에서 심리학 학사 학위 취득을 위한 5개 학부 시험(단답형 3개, 에세이 2개)에 100% 챗GPT-4가 작성한 답안을 가짜 학생 33명의 이름으로 제출했다. 채점자들은 이 연구에 대해 모르는 상태에서 실험이 진행됐다.



그 결과 AI가 작성한 답안의 94%가 채점자들에게 적발되지 않았고, 평균적으로 실제 학생의 답안보다 더 높은 점수를 받은 것으로 나타났다.

AI가 작성한 답안과 실제 학생 답안을 무작위로 선택해 비교할 경우 AI 답안이 점수가 높을 확률이 83.4%에 달했다.

또 실제 학생이 AI 점수 중간값보다 높은 점수를 받는 비율은 4개 시험에서 4.35~17.63%에 불과했고, 에세이 시험 중 1개에서만 실제 학생 57.14%의 점수가 AI 점수 중간값을 넘었다.

연구팀은 “이 결과는 학생들이 부정행위에 AI를 사용할 수 있고 이들이 다른 학생보다 더 좋은 성적을 받을 가능성을 시사한다”며 “연구 과정에서 실제 학생 중 상당수가 AI 생성 제출물을 통해 부정행위를 했을 가능성도 고려하고 있다”고 했다.

그러면서 “AI가 교육 평가에 어떤 영향을 미칠 수 있는지 보여주는 것으로 매우 우려스럽다”며 “전 세계 교육 부문이 AI 발달에 대응해 새로운 정책과 지침을 만들어 문제 해결을 위해 더 많은 노력을 기울여야 한다”고 강조했다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >
주소 : 서울특별시 종로구 율곡로 6 트윈트리타워 B동 14~16층 대표전화 : 02) 724-8600
상호 : 서울경제신문사업자번호 : 208-81-10310대표자 : 손동영등록번호 : 서울 가 00224등록일자 : 1988.05.13
인터넷신문 등록번호 : 서울 아04065 등록일자 : 2016.04.26발행일자 : 2016.04.01발행 ·편집인 : 손동영청소년보호책임자 : 신한수
서울경제의 모든 콘텐트는 저작권법의 보호를 받는 바, 무단 전재·복사·배포 등은 법적 제재를 받을 수 있습니다.
Copyright ⓒ Sedaily, All right reserved

서울경제를 팔로우하세요!

서울경제신문

텔레그램 뉴스채널

서울경제 1q60