‘초거대AI가 뭐길래’?…뜨거워지는 기술 경쟁

학습 뛰어넘어 창작까지 가능한 ‘초거대AI’…美 ‘GPT-3’ 현존 최고
‘GPT-3’ 뛰어넘는 네이버 한국형 ‘초거대AI’ 공개…개발경쟁 ‘가속’

네이버가 국내 최초로 자체 개발한 초대규모 인공지능(AI)인 ‘하이퍼클로바’를 공개하면서 초거대 AI에 대한 글로벌 빅테크 기업들의 기술 개발 경쟁이 한층 격화될 것으로 보인다.

초거대AI는 스스로 사고하고 학습, 판단할 수 있으며 창작까지 가능하도록 설계된 AI다. 초거대 AI는 일론 머스크 테슬라 최고경영자(CEO)가 주도해 설립한 ‘오픈(Open)AI’ 연구소가 지난해 공개한 ‘GPT-3’가 대표적이다. 기존 딥러닝 기반의 AI는 수동적인데 비해 초거대 AI는 능동적이며 창작까지 가능하다. 네이버가 공개한 한국어를 기반으로 한 하이퍼클로버는 세계 최초의 자국어 모델 ‘초거대 AI’인 셈이다. 한국의 ‘초거대AI’ 주권 확보라는 의미도 내포하고 있다는 평가다.

◇네이버 ‘하이퍼클로바’, 한국형 ‘초거대AI’…무엇을 할 수 있나?

지난 25일 네이버가 공개한 하이퍼클로바는 GPT-3(1750억개)를 뛰어넘는 2040억개 파라미터(매개변수) 규모로 개발됐다. AI 모델의 크기를 나타내는 파라미터의 수가 높아질수록 AI는 더 많은 문제를 해결할 수 있게 된다.

GPT-3는 일론 머스크 테슬라 최고경영자(CEO)와 실리콘밸리 스타트업 액셀러레이터 와이콤비네이터(YC) 대표를 지낸 샘 알트먼이 공동설립한 비영리 AI 연구회사 '오픈AI'가 개발한 영어 기반 AI 언어모델이다.

네이버의 하이퍼클로바는 GPT-3보다 한국어 데이터를 6500배 이상 학습한 현재 전세계에서 가장 큰 한국어 초거대 언어모델이다. 영어가 학습 데이터의 대부분을 차지하는 GPT-3와 달리 하이퍼클로바 학습 데이터는 한국어 비중이 97%에 달한다. 사실상 세계 첫 모델인 셈이다.

네이버는 지난해 10월 국내 기업 최초로 700 페타플롭(PF) 성능을 갖춘 슈퍼컴퓨터를 도입, 대용량 데이터 처리를 위한 인프라를 갖췄다. 또 국내 최대 인터넷 플랫폼을 운영하며 쌓아온 대규모 데이터 처리능력도 하이퍼클로바만의 핵심 경쟁력이다. 네이버는 하이퍼클로바 개발을 위해 5600억개 토큰(token)의 한국어 대용량 데이터를 구축했다.

네이버는 하이퍼클로바를 쇼핑·지도 등 10개 이상의 네이버 서비스에 적용해 공개할 예정이다. 중소상공인(SME)·크리에이터·스타트업 등을 지원하는 기술도 구상 중이다. 예를 들어 상품판매 마케팅 문구를 AI가 자동으로 만들어주는 식이다. 이외에도 하이퍼클로바는 작문·요약·데이터 생성 등 다양한 역할을 수행할 수 있어 활용처가 폭넓을 것으로 전망된다.

궁극적인 목표는 AI를 ‘모두의 능력’으로 만드는 것. 일종의 ‘레벨업’ 도구로 쓰이도록 하겠다는 포부다. 네이버에 따르면 하이퍼클로바는 간단한 설명과 예시를 제시하는 소수학습(Few-shot learning) 방식으로 동작시킬 수 있다. 전문가가 아니어도 누구나 손쉽게 AI 서비스를 만들 수 있다고 한다. 앞으로 네이버는 한국어 외의 언어로 언어모델을 확장하고, 영상·음성·이미지 등을 이해하는 ‘멀티모달(Multimodal) AI’로 하이퍼클로바를 발전시켜 나갈 계획이다. 이를 위해 서울대학교·카이스트 등과 손잡고 공동연구센터를 각각 설립, 긴밀한 산학협력을 맺기로 했다.

정석근 네이버 클로바 CIC(Company-In-Company) 대표는 “더 짧은 시간과 더 적은 리소스를 사용해 이전에 우리가 상상만 했던, 또는 우리가 상상하지 못했던 일들마저 가능해지는 새로운 AI의 시대가 열리고 있다”며 “문서 요약·번역·대화뿐 아니라 상식 퀴즈에 제대로 답하거나 말 만해도 코드를 만들어주는 등 기존에 상상하지 못했던 일을 쉽게 해결할 수 있다”고 강조했다.

◇ 기술 선점이 ‘초거대AI’ 주권 확보…글로벌 기업 기술 경쟁 치열

초거대AI 개발에 나선 것은 네이버 뿐만이 아니다. 주요 대기업들이 연합전선 등을 구축하며 개발 경쟁에 열을 올리고 있다. 이를 새로운 가치 창출과 비즈니스 모델로 활용할 수 있다. 특히나 초거대 AI를 통해 방대한 논문과 자료 등에서 유의미한 통계를 추출할 수 있어, 새로운 물질 개발이나 연구에도 적용이 가능하다. 질병 진단과 전염병 대응, 자율주행, 콜센터 소비자 응대, 재무 설계, 생산과 수요 예측 등 적용 분야는 무궁무진하다.

LG그룹은 약 1100억 원을 투자해 초거대 AI를 개발해 올 하반기 공개하겠다는 계획이다.올 해 하반기까지 GPT-3의 3배 수준인 6000억 개 파라미터를 갖춘 초거대 AI를 선보일 예정이다. 내년 상반기에는 조 단위 파라미터의 '초거대 AI'도 개발할 계획이다.

KT도 초거대 AI 개발을 위해 KAIST와 손잡았다. KT가 보유한 대덕2연구센터에 연구소를 연내 설립하고 KAIST 교수, 연구원, KT 직원 약 200명이 상주할 수 있는 R&D 공간도 마련한다.

SK텔레콤은 카카오와 협력해 개발 경쟁에 뛰어들었다. 양사는 인프라, 데이터, 언어모델 등 전 영역에서 협력하기로 했다. 국립국어원과도 GPT-3와 유사한 성능을 발휘하는 한국어 범용 언어모델을 개발하기로 했다.

정부도 지원에 나섰다. 과학기술정보통신부가 지난해 8월 신청한 차세대 AI 핵심원천기술개발 프로젝트가 기술성 평가와 예비타당성 조사를 최종 통과해 내년부터 공식 추진된다.

이 사업은 2019년 말 정부가 발표한 '인공지능 국가전략'에 따라 현행 딥러닝 기반 AI 기술의 한계를 넘어 초거대 AI 원천기술을 확보하기 위한 것으로 2026년까지 국고 3000억 원이 투입된다.

IT업계 한 관계자는 “기존 AI와는 차원이 다른 ‘초거대AI’는 문명의 전환이라고 평가할 수 있다”며 “초거대AI는 구글, 아마존 등 글로벌 빅테크 기업들도 핵심 목표로 설정한 만큼 전 국가적 사안으로 우리나라도 개발에 적극 나서 ‘초거대AI’ 주권을 확보해야 한다”고 말했다.

민철 글로벌이코노믹 기자 minc0716@g-enews.com