닫기

글로벌이코노믹

[초점] 멀티모달 기반 GPT-4, 앱의 세대교체 바람 분다

공유
0

[초점] 멀티모달 기반 GPT-4, 앱의 세대교체 바람 분다

텍스트·이미지·텍스트·비디오 기술 상용화 눈앞

오픈AI가 공개한 GPT-4의 자연어 처리는 인간의 언어 처리 과정과 비슷하다. 사진=로이터이미지 확대보기
오픈AI가 공개한 GPT-4의 자연어 처리는 인간의 언어 처리 과정과 비슷하다. 사진=로이터
지난 3개월 동안 IT 업계의 화두는 챗GPT였다. 이제 한동안은 '멀티모달' 열풍이 불어올 것으로 보인다.

29일(현지시간) 니혼게이자이 신문은 멀티모달 기반 AI가 세상에 공개되면 완전히 새로운 종류의 어플리케이션을 만들어냄으로써 앱의 세대교체가 일어날 것으로 예측했다.

2007년 완전히 새로운 사용자경험(UX)을 갖춘 스마트폰이라는 플랫폼이 등장하면서 앱의 세대가 바뀌었다. 스마트폰에는 이전과는 전혀 다른 완전히 새로운 앱이 개발됐고, PC용 앱은 더디게 발전했다.

니혼게이자이는 멀티모달의 등장으로 이 같은 수준의 세대 교체가 일어날 것으로 전망했다.

멀티모달 인공지능은 다양한 종류와 형태의 데이터를 이해하고 처리할 수 있는 인공지능 기술을 의미한다.

사람의 언어 처리 과정은 입력·이해·출력 세 단계로 나뉜다. 이제 멀티모달 기술로 텍스트·이미지 및 텍스트·비디오 기술이 상용화를 향해 나아가고 있다.

GPT-3.5에서는 텍스트 입력·텍스트 처리·텍스트 출력 과정을 거쳤다. GPT-4는 인간의 언어 처리 과정과 비슷하게 다중모드 입력·텍스트 처리·다중모드 출력으로 발전했다.

덴마크의 비마이아이즈는 GPT-4를 활용해 시각장애인을 위한 보조 앱 버추얼 발런티어(Virtual Volunteer)를 개발했다.

사용자가 스마트폰 카메라로 냉장고 안을 촬용하면 GPT-4가 냉장고 안의 재료를 설명해줄 뿐만 아니라 요리할 수 있는 레시피도 알려준다.

니혼게이자이신문은 앞으로 시스템 연동도 달라질 것으로 추측했다. 지금까지 앱은 애플리케이션 프로그래밍 인터페이스(API)를 통하지 않으면 다른 앱과 연동할 수 없었다.

하지만 API가 없는 앱이라도 그래픽 사용자 인터페이스(GUI)나 캐릭터 사용자 인터페이스(CUI)는 반드시 갖추고 있다.

GPT-4를 기반으로 차세대 앱은 텍스트와 이미지까지 모두 이해 할 수 있다. GUI나 CUI를 조작함으로써 다른 앱과 쉽게 연동될 것이다.

앞으로는 텍스트와 이미지 그리고 동영상까지 이해할 수 있는 AI가 개발될 것으로 보인다. 이미 딥마인드는 동영상, 음성, 3차원 데이터를 다룰 수 있는 기술을 발표하기도 했다.

구글은 딥마인드가 개발한 멀티 모달 기반 AI를 구글 클라우드에 적용할 예정이라고 밝혔다.

GPT-4는 매우 강력한 소스코드 생성 능력을 갖추고 있다. GPT의 등장으로 소프트웨어 개발자들은 "내 일자리가 없어지는 것은 아니냐"고 한탄하기도 한다.

하지만 아직은 한탄할 때가 아니다. 멀티모달 기반 AI 플랫폼을 활용해 앞으로 어떤 앱을 개발해야할지를 고민할 때다.


노훈주 글로벌이코노믹 기자 hunjuroh@g-enews.com