한국어 특화… AI 통합 멀티모달
텍스트·음성·이미지 동시에 처리
감정 인식 능력 GPT-4o보다 탁월
카카오가 텍스트 중심의 인공지능(AI) 모델을 넘어 사람처럼 보고 듣고 말하며 공감하는 멀티모달 언어모델을 국내 최초로 공개했다.카카오는 1일 공식 테크블로그를 통해 통합 멀티모달 언어모델인 ‘카나나-o’와 오디오 언어모델인 ‘카나나-a’의 성능과 개발 후기를 공개했다.
카나나-o는 텍스트와 음성, 이미지 등 다양한 형태의 정보를 동시에 이해하고 처리할 수 있는 AI 모델로 이용자가 텍스트·음성·이미지 중 어떤 조합으로 질문해도 상황에 맞게 추론하고 답변할 수 있다. 예를 들어 횡단보도와 신호등이 있는 사진을 보여 주며 “이미지에서 보행자 신호등은 무슨 색이야? 건너도 될까?”라고 질문하면 카나나-o가 이미지를 통해 상황을 인식해 답변하는 식이다.
카나나-o는 이용자의 억양과 말투, 목소리 떨림 등 비언어적 신호를 분석하고, 대화 맥락에 맞는 감정적이고 자연스러운 음성의 응답을 생성하는 것이 특징이다. 특히 한국어 데이터를 대규모로 학습해 한국어에 특화돼 있다. 한국어의 특수한 발화 구조나 억양, 어미 변화 등을 정밀하게 반영하고 제주도나 경상도 등 지역 방언까지도 인식한다고 카카오는 소개했다.
카카오는 카나나-o가 한국어 및 영어 성능평가에서 오픈AI의 ‘GPT-4o’, 구글의 ‘제미나이 1.5 프로’와 같은 글로벌 최고 모델들과 유사한 수준을 기록했다고 밝혔다. 특히 감정 인식 능력에서는 한국어와 영어 모두 다른 모델들보다 높은 점수를 기록했다.
카카오는 향후 카나나-o의 부적절한 응답을 방지하기 위한 안전성을 확보하고, 대화와 데이터의 실시간 대응 능력을 강화해 실제 대화에 가깝도록 연구를 지속할 계획이다.
2025-05-02 12면
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지