[뉴스토마토프라임] 데이터 중심의 AI

[뉴스토마토프라임] 데이터 중심의 AI

입력 : 2024-12-23 오전 7:53:07

[뉴스토마토 김나볏 기자] 생성형 인공지능(AI) 선두주자 오픈AI의 새 AI모델 개발이 지연되고 있다고 합니다. 학습할 데이터가 모자라기 때문입니다. 인터넷에 데이터는 널려 있다고들 하지만 모든 데이터가 학습에 유의미한 것은 아닐 겁니다. 가령 제아무리 훌륭한 제빵사가 나선다 하더라도 재료가 이에 못 미친다면 완성된 빵의 품질에는 한계가 있을 수밖에 없겠죠. AI도 마찬가지입니다. AI가 똑똑해지기 위해서는 고급 추론 능력과 더불어 양질의 정보가 필수적으로 요구됩니다.

오픈AI의 새 AI모델 개발이 늦어지고 있다는 세간의 판단은 지난주 마무리된 '오픈AI의 12일' 행사에서 회사가 내년 출시 예정인 고급 추론 AI 'o3'를 공개한 데 따른 시장의 반응이라고도 볼 수 있는데요. 회사가 GPT-4 이후 GPT-5라 불릴 차세대 AI모델 대신, 'o3'라는 고급 추론 버전을 내놓은 데 대한 실망감인 셈이죠. 자동차에 비유하자면 풀 모델 체인지를 기대했는데 페이스 리프트가 이뤄진 것으로도 볼 수 있습니다. 학습 데이터의 부족으로 AI 코드와 알고리즘 개선이 벽에 부딪혔기 때문에 이같은 선택이 불가피했다는 얘기도 흘러 나옵니다.

AI 지각생인 한국 입장에선 AI 리딩 기업의 이 같은 숨고르기를 그나마 다행스런 일로 여겨야 할까요? 그런데 그렇게 정신승리 혹은 위안을 하며 넘어가기엔 왠지 어딘가 찜찜합니다. 사실 최근 IT업계에선 모델 중심의 AI가 아닌 데이터 중심의 AI가 화두가 되고 있기 때문이죠. AI모델 코드와 알고리즘의 개선도 물론 중요하지만, AI 기술이 일정 정도 궤도에 오른 지금 단계에선 양질의 데이터를 확보하는 일이 더 가치 있게 여겨지고 있습니다. 오픈AI의 경우 새로운 데이터를 만들어서 AI를 훈련시키는 방법을 쓰고 있다고도 합니다. 데이터 가공을 말하는 건데, 이는 아예 세상에 존재하지 않는 데이터를 만들어낸다는 개념이 아니라 의미 없는 데이터를 쓸 만한 데이터로 가꾸는 것을 의미합니다. 분명 시간이 걸리는 작업이지만 AI의 정밀도를 높이는 작업이기도 합니다.

오픈AI의 기술 개발 속도가 늦어진다는 소식은 향후 벌어질 초격차에 대한 예고일지도 모릅니다. 혁신은 매일같이 쏟아지는 게 아니라 계단식으로 진행되곤 하니까요. 아닌 게 아니라 오픈AI는 이번 행사 기간 중 새 AI 모델을 내놓지는 못했지만, 대신 서비스 분야에서 괄목할 만한 이슈를 만들어냈죠. 챗GPT 번호로 전화를 걸어 질문하면 답을 하는 방식의 '챗GPT 전화 서비스'를 공개했는데, '모두의 AGI(범용 인공지능)'가 되기 위한 의미 있는 걸음을 한발짝 더 내딛은 셈입니다. 이렇게 혁신은 여러 방향에서 두루 문을 두드리는 가운데 일어납니다.

AI 후발주자인 한국 역시도 여러 가지 문을 두드려야 합니다. GPU칩을 확보할 궁리 외에 더 늦기 전 AI 학습용 데이터를 확보하기 위한 심도 있는 고민 또한 필요합니다. 개인정보의 경우 국내 정서상 조심스럽게 접근할 수밖에 없다 하더라도 이 문제와 동떨어진 공공데이터의 경우 국가적 차원에서 적극적으로 쓸 만한 데이터로 가공하고 민간에 개방하려는 노력을 기울여야 합니다. '쩐의 전쟁'이 되어버린 글로벌 AI 경쟁에서 한국어로 된 데이터를 요하는 분야만큼은 한국 기업이 주도권을 잃지 않도록 국가가 힘써야 할 때입니다.