베일 벗은 초거대 언어모델 '루시아'…한글 데이터 1TB 학습

솔트룩스, 인공지능 초거대 언어모델 '루시아' 공개
다양한 분야 사업 수행하며 한글 데이터 1TB 이상 학습
챗GPT 등 고질적 문제인 '환각 현상' 획기적으로 감소
이경일 솔트룩스 대표 "'루시아 GPT' 통해 또 다른 성장 시작할 것"

입력 : 2023-09-07 오후 5:04:03
[뉴스토마토 배덕훈 기자]인공지능 기업 솔트룩스(304100)가 인공지능 초거대 언어모델(LLM) '루시아(LUXIA)'를 공개했습니다. 
 
솔트룩스는 7일 서울 강남구 삼성동 코엑스에서 제17회 AI 콘퍼런스 'SAC 2023'을 개최하고 올해 초 처음 공개한 '루시아'와 그 생태계를 본격적으로 소개했습니다. 
 
솔트룩스 이경일 대표 (사진=솔트룩스 제공)
 
'루시아'는 AI 데이터 구축과 관련한 정부 사업뿐 아니라 특허청, 행정안전부 등 다양한 분야의 사업을 수행하며 솔트룩스가 축적해 온 한글 데이터를 약 1TB(테라바이트) 이상 학습했습니다. 이에 데이터 저작권 이슈를 최소화하고 법률, 특허, 금융, 교육 등 각 전문 분야에 최적화된 맞춤형 언어모델을 빠르고 안전하게 구축할 수 있습니다. 
 
특히 루시아는 챗GPT 등 생성 AI의 고질적인 문제로 지적된 환각 현상을 최소화하기 위해 '지식그래프(Knowledge Graph)를 활용한 사실/지식 그라운딩(Factual Grounding)'과 '검색 증강 생성(RAG·Retrieval-Augmented Generation)'이라는 2가지 접근법을 연계했습니다.
 
솔트룩스 김재은 랩장은 자사 지식그래프와 연계해 자체 연구·개발한 인스트럭트 지식 학습(IKL·Instruct Knowledge Learning)을 통해 오픈AI의 'GPT-3.5' 및 메타의 '라마(Llama)2'와 대비했을 때 한국어 환각 현상 자체 평가에서 43% 더 우수한 성능을 드러냈다고 설명했습니다.
 
루시아에 환각 방지 솔루션이 추가된 '루시아 GPT'는 매개변수(파라미터) 규모가 70억, 130억, 200억, 500억 개로 다양하게 구성돼 기업과 고객들이 합리적인 비용으로 도입이 가능합니다. 
 
솔트룩스는 이날 루시아 GPT 외에도 언어모델 구축 솔루션 '랭기지 스튜디오', 인지검색 솔루션 '서치 스튜디오', 인공지능 기반 지식그래프 솔루션 '날리지 스튜디오' 등 다양한 제품이 포함된 '루시아 엔터프라이즈'도 공개했습니다.
 
키노트 행사 진행하는 이경일 솔트룩스 대표 (사진=배덕훈 기자)
 
이경일 솔트룩스 대표는 이날 키노트 행사에서 프로메테우스, 오펜하이머, 생성 인공지능 모멘트를 소개하며 "2000년에 회사를 창업한 이래 지금까지 23년간 자연어처리(NLP)에 집중하며 대규모 학습 데이터를 구축해 왔다"라고 설명했습니다.
 
그러면서 "회사 설립 당시 세상 모든 사람이 자유롭게 지식 소통하는 세상을 만들겠다는 미션을 가지고 있었던 솔트룩스는, 이제 오직 사람만을 위한 루시아 GPT를 만들고 이를 통해 또 다른 성장을 시작하고자 한다"고 비전을 밝혔습니다.
 
배덕훈 기자 paladin703@etomato.com
 
ⓒ 맛있는 뉴스토마토, 무단 전재 - 재배포 금지
배덕훈 기자
SNS 계정 : 메일