[시큐리티팩트=김상규 기자] 미디어젠 컨소시엄이 최근 인공지능(AI) 산업계를 뜨겁게 달구고 있는 ‘초거대 AI 모델(LLM)’을 위한 AI 데이터 구축 사업을 수주했다고 29일 밝혔다.
미디어젠 컨소시엄은 과학기술정보통신부가 주관하고 한국지능정보사회진흥원(NIA)이 추진하는 ‘2023년도 인공지능 학습용 데이터 구축 사업’의 초거대 AI 모델을 위한 AI 학습용 데이터 구축 사업자로 최종 선정됐다.
이에 따라 헬스케어 분야에 대해 약 2억 어절 이상의 초거대 규모 생성형 AI 챗봇의 질의응답 데이터를 구축한다. 본 사업은 AI 최신 기술인 초거대 AI 언어모델 및 응용서비스 개발에 필수적인 대량의 말뭉치 데이터를 구축하는 것으로, 실제 일반인 및 의료진의 질의응답 데이터, 전문 의료 서적 데이터, 증강 데이터 등으로 구성된다.
미디어젠 컨소시엄은 미디어젠, 메트릭스, 비디, 위뉴, 메인 등 5개 전문 기업으로 구성돼 있다. 주관기관인 미디어젠은 초거대 AI 모델을 개발하고, AI 학습용 데이터 구축의 설계 및 품질 관리 전반을 관장한다.
크라우드 워커 전문 플랫폼 운용사인 메트릭스와 AI 소프트웨어 플랫폼 전문 기업인 비디는 다년간 AI 학습용 데이터 구축 사업에 참여해 AI 데이터 구축 프로세스에 따른 양질의 데이터를 구축한 경험을 보유하고 있다.
특히 참여기관 중 의료 전문 기업인 위뉴와 메인은 최근 생성형 AI 모델의 최대 약점이라고 불리는 데이터 환각(할루시네이션) 효과를 최소화하기 위한 실제 의료진 데이터의 수집 및 검수 역할을 담당할 예정으로, 초거대 AI 모델의 유용성을 크게 높일 수 있을 것으로 기대된다.
이번 데이터 구축 사업에서 초거대 AI 훈련용 데이터가 구축되면 생성형 AI 모델 기반 챗봇을 통해 손쉽게 헬스케어 분야에 대한 지식 정보를 얻을 수 있으며, 의료진이 직접 작성한 데이터를 활용해 질의응답의 내용적 불확실성을 최소화할 수 있을 것으로 기대된다.
초거대 AI 모델 학습을 위한 헬스케어 질의응답 데이터 구축은 올해 연말까지 진행되며, 구축이 완료된 후에는 한국지능정보사회진흥원(NIA)에서 운영하는 ‘AI-Hub’를 통해 모든 데이터가 일반에 공개될 예정이다.