카카오, 카나나-2 전략 공개…"알아서 돕는 에이전틱 AI, 현실로 만들 것"

카나나 기반으로 '지각·추론·행동' 능력 통합한 AI 지향
추론 효율성·체감 속도 개선하고 다국어 지원…환각 최소화도 집중

입력 : 2025-09-24 오후 2:14:39
[뉴스토마토 신상민 기자] 김병학 카카오 성과리더가 자체 개발 AI 모델인 카나나를 기반으로 한 에이전틱 AI의 향후 청사진에 대해 소개했습니다. 
 
김병학 성과리더는 24일 용인시 카카오 AI 캠퍼스에서 카카오 연례 최대 개발자 행사인 'if(kakao)25'에서 "카나나 모델을 바탕으로 이용자의 마음을 먼저 읽고 알아서 도와주는 에이전틱 AI를 현실로 만들어 나갈 것"이라고 강조했습니다. 
 
김 성과리더는 "고도화된 작업 능력을 위해서는 지각 능력, 추론 능력, 행동 능력이 중요한데 이는 마치 사람이 정보를 인식하고 생각하고 행동으로 옮기는 과정과 동일하다"고 말했습니다. 이를 위해 카카오는 카나나 모델에서 롱컨텍스트 처리와 멀티모달 이해, 추론 능력, 외부 도구를 활용하는 능력을 집중적으로 강화하고 있습니다. 
 
구체적으로 올해 2월 언어 모델의 라인업을 완성했고 3개월 만에 수학, 코딩 등 고난이도 문제 해결 능력을 향상시킨 카나나-1.5를 공개했습니다. 이후 카나나-1.5를 기반으로 전문가 기반 혼합(MoE) 구조의 모델을 개발했습니다. 또한 추론 모델에 대한 연구도 진행해왔습니다. 
 
카카오는 카나나-1.5를 통해 축적한 기술을 확장해 고성능과 효율성을 갖춘 AI, 실제 서비스에서 가장 편리한 AI를 목표로 카나나-2를 개발 중입니다. 
 
특히 추론 효율성의 강화와 체감 속도 개선, 에이전틱 AI의 핵심 역량 강화에 집중합니다. 카카오는 복잡하고 여러 단계로 이뤄진 지시를 정확히 따르는 능력, 외부 도구를 능숙하게 연결하고 사용하는 툴 사용, 다국어 확장, 환각 없이 사실에 기반해 답변하는 능력을 최고 수준으로 끌어올리겠다는 계획입니다. 
 
김 성과리더는 "장기적으로 지시를 따르는 모델과 깊게 생각하는 추론 모델을 통합해 카나나 서비스에 최적화된 하이브리드 언어 모델을 완성할 계획"이라고 밝혔습니다. 
 
카나나-2의 구조적 특징에 대해서도 설명했습니다. 모든 크기의 모델에 공통적으로 적용한 'MLA(Multi-Head Latent Attention)' 기법은 압축을 거쳐 긴 인풋을 효율적으로 처리하는 방식입니다. 가장 큰 크기의 모델에 적용한 MoE는 추론 시 일부 파라미터만 활성화돼 높은 효율성을 보이는 구조입니다. 현재 두 구조를 이용한 '카나나-2-30b-a3b' 모델을 개발 중입니다. 
 
김 성과리더는 "대규모 서비스를 가정하고 카나나-2를 기존 카나나-1.5-32.5b와 비교했을 때 추론 기능이 획기적으로 증가했고 응답 속도도 압도적으로 빠르다"며 "이런 이유로 동 접속자가 많은 환경에서도 추론 효율을 크게 높일 수 있을 것"이라고 말했습니다. 김 성과리더는 개발 완료 시 기존 32.5b 이상의 성능을 예상했습니다. 
 
카카오는 경량 모델의 고도화에도 집중하고 있습니다. 최적화 기법을 거쳐 온디바이스 모델의 고도화를 진행 중입니다. 김 성과리더는 "기존 버전의 모델에 비해 뛰어난 성능을 보이고 있으며 다양한 규모의 고성능 경량 모델을 구축하는 핵심 기반이 될 것"이라고 설명했습니다. 
 
고성능 언어 모델을 기반으로 다양한 형태의 정보를 자유자재로 이해하고 생성하는 'Any-to-Any' 구조의 옴니모달 모델에 대한 방향성도 언급했습니다. 그 중심에 멀티모달 모델 카나나-o가 있습니다. 
 
카나나-o는 텍스트, 음성, 이미지를 동시에 이해하고 텍스트와 음성으로 답변하는 모델입니다. 한국어 특화 모델인 만큼 제주 사투리와 같은 지역 방언, 한국 문화, 장소를 정확히 인식합니다. 
 
카나나-o와 관련, 김 성과리더는 "이미지를 이해하는 카나나-v와 음성을 이해하는 카나나-a를 결합하는 효율적인 개발 구조로 가능했다"며 "앞으로의 개발 방향성의 핵심은 음성 기반 멀티턴 대화 처리, 사람처럼 끊김 없이 소통하는 음성 대화 지원, 안정성 확보다"라고 밝혔습니다. 
 
카카오는 멀티모달 이해를 넘어 생성하는 능력까지 고도화하기 위해 현재 이미지 생성 모델 '카나나-kollage’를 개발해 서비스에 적용하고 있으며, 동영상 생성 모델인 '카나나-kinema'로 확장하고 있습니다. 
 
해당 모델은 인물의 포즈를 정교하게 제어하는 모듈을 추가해 자연스러운 인물 영상을 만들어냅니다. 또한 생성 속도 단축을 위해 최적화 작업을 진행 중입니다. 음성 모델도 한국어, 영어 외에도 일본어, 중국어, 베트남어 등 연내 최대 5개의 언어를 지원하도록 확대할 예정입니다. 
 
김병학 카나나 성과리더가 24일 용인시 카카오 AI 캠퍼스에서 카카오 연례 최대 개발자 행사인 'if(kakao)25'에서 에이전틱 AI를 향한 카나나 모델의 진화 방향을 소개하고 있다. (사진=카카오)
 
신상민 기자 lmez0810@etomato.com
 
ⓒ 맛있는 뉴스토마토, 무단 전재 - 재배포 금지
신상민 기자
SNS 계정 : 메일 페이스북