출처: 블록체인투데이
[블록체인투데이 이아름 기자] 아하 커뮤니티를 운영 중인 아하앤컴퍼니(대표 서한울)가 국내 대표 AI 기업 업스테이지(대표 김성훈)가 개발 중인 초거대언어모델(LLM) 학습에 필요한 한국어 코퍼스 데이터를 공급한다고 8일 밝혔다.
업스테이지는 자체 개발한 LLM ‘솔라’를 통해 글로벌 무대에서 빅테크 모델을 능가하는 기술 경쟁력을 인정받은 대한민국 대표 AI 기업이다. 지난달 차세대 LLM인 ‘솔라 프로’의 프리뷰 버전을 공개하며 기업용 AI 시장의 혁신을 예고하는 등 국내 AI 산업을 리딩하고 있다.
고품질 언어 데이터는 최신 기술로 구현된 LLM을 비롯한 AI 모델의 성능을 결정짓는 가장 중요한 요소다. 즉 데이터의 품질이 좋아질수록 LLM의 성능도 향상된다.
이번 계약을 통해 업스테이지가 뛰어난 기술력을 바탕으로 자체 개발 중인 LLM과 고품질 한국어 코퍼스 데이터를 보유한 아하 커뮤니티가 만나게 됐다. 아하 커뮤니티는 법률, 세금/세무, 인사/노무, 의료, 약료, 반려동물, 치과, 보험, 부동산 등 다양한 분야의 질문 및 전문가의 신뢰도 높은 답변 데이터를 보유 중이며, 1차적인 데이터 가공(개인정보 제거 등)이 선행돼 고객사의 검수 편의성 확보와 학습 시 부적합한 답변 가능성을 줄여준다.
특히 아하 커뮤니티는 활동하는 전문가를 대상으로 내부 정책에 따른 아하 지수 및 어뷰징 적발 알고리즘을 통해 답변자의 답변 퀄리티를 유지 중이며, 이 기준들을 통한 답변자 내부 랭킹 산정 등 콘텐츠 QC 정책을 통해 고품질 한국어 데이터 생산 환경을 구축하고 있다.
아하 커뮤니티 서한울 대표는 “대한민국 대표 AI 기업 업스테이지의 LLM 개발에 자사 한국어 코퍼스 데이터를 공급하게 돼 무척 영광스럽게 생각한다”며 “업스테이지의 LLM 개발에 data provider로서 역할을 다할 것”이라고 밝혔다.