컨텐츠로 건너뛰기
검색
전자신문 언론사 이미지

에이아이웍스, NIA 'AI 허브 데이터 업사이클링 사업' 구축 성과 발표

전자신문
원문보기

에이아이웍스, NIA 'AI 허브 데이터 업사이클링 사업' 구축 성과 발표

속보
中, 오늘부터 '대만 포위' 육해공 훈련…30일 실탄사격

AI 데이터 구축·솔루션·검증 전문기업 에이아이웍스(AIWORKX)는 한국지능정보사회진흥원(NIA)이 주관한 'AI 허브 인공지능 학습용 데이터 업사이클링 사업'의 수행 성과를 공개했다고 밝혔다.

이번 성과는 지난 12월 18일 코엑스에서 열린 '2025 AI를 위한 데이터&클라우드 진흥주간' 성과 보고회를 통해 발표됐다. 보고회는 서울 삼성동 코엑스 3층 컨퍼런스룸 E5에서 진행됐으며, 이번 발표는 기존 AI 허브 데이터셋을 대상으로 한 '재사용 가능한 AI 데이터(Data Reuse)' 구현과, 이를 가능하게 한 온톨로지 기반 가공과 RAG 접목 방식을 중심으로 진행됐다.

에이아이웍스(AIWORKX)는 'AI 허브 인공지능 학습용 데이터 업사이클링 사업'을 통해 총 11개 데이터셋, 약 220만 건 규모의 데이터 업사이클링을 완료했다.


이번 사업에서 에이아이웍스는 신규 데이터 수집이 아닌, 기존에 구축된 AI 허브 데이터를 재구성·재가공하는 방식으로 고도화를 추진했다. 업사이클링 유형은 다운사이징, 이미지-텍스트, QA-COT 등 세 가지로 구분된다.

먼저 다운사이징(Downsizing) 업사이클링은 의료 가상 착용 데이터셋 1종을 대상으로 진행됐다. 중복 제거와 구조 재정비를 통해 기존 55TB 규모의 데이터를 7.37TB로 축소했으며, 대용량 데이터의 품질을 유지하면서도 저장 및 활용 효율을 크게 높인 사례로 제시됐다.

이미지-텍스트(Image-Text) 업사이클링은 교통, 배구, 융합 등 비정형 이미지 데이터 영역에서 총 5개 데이터셋을 대상으로 수행됐다. 기존 객체 인식 중심의 데이터 구조에서 벗어나, 이미지와 텍스트 정보를 결합한 구조적 가공을 통해 이미지와 의미 정보를 연결하는 방식으로 재구성했다.


QA-COT(QA with Chain-of-Thought) 업사이클링은 알체라가 수행한 5개 데이터셋으로, 기존 데이터를 질의-응답 및 추론 중심의 구조로 재해석해 생성형 AI 환경에서 재사용 가능한 데이터 형태로 전환했다. 이를 통해 추론 기반 학습이 가능한 QA-COT 데이터로 가공이 이뤄졌다.

이로써 에이아이웍스는 다운사이징 1개, 이미지-텍스트 5개, QA-COT 5개 등 총 11개 데이터셋에 대한 업사이클링을 완료했다.


에이아이웍스는 데이터 재사용성을 높이기 위한 핵심 방법으로 온톨로지 기반 가공을 적용했다. 유동헌 PM은 발표를 통해 “구조 정보 기반의 온톨로지 가공이 기존 레이블링된 정보를 잘 표현하는 방식”이라고 설명했다. 기존 데이터가 객체를 단순 나열하는 형태였다면, 업사이클링 과정에서는 객체, 관계, 속성, 역할, 상황 규칙 등 의미적 관계를 구조화해 데이터 활용 범위를 확장했다. 특히 배구 데이터셋과 같이 명확한 규칙이 존재하는 도메인에서 효과적인 가공 방식이라는 설명이다.


또한 에이아이웍스는 온톨로지로 구조화된 텍스트 데이터에 RAG(Retrieval-Augmented Generation)를 접목했다. 유동헌 PM은 “업사이클링을 통해 기존 데이터 활용도를 높인 온톨로지와 RAG를 접목한 기술은 연내 특허 출원이 예정돼 있다”고 밝혔다.

발표자료에 따르면, 해당 방식은 단순 텍스트 검색 결과를 프롬프트에 전달하는 기존 RAG 방식과 달리, 온톨로지 구조 자체를 검색 단위로 활용하고 이를 유지한 채 프롬프트로 가공하는 방식이다. 에이아이웍스는 이를 '온톨로지-RAG 프롬프트 가공 방식'으로 정의했다.

에이아이웍스는 4개월이라는 짧은 기간 내 목표 구축량을 조기에 달성했으며, 제3자 검증도 통과했다. 회사 측은 이번 성과를 “기존 AI 허브 데이터를 생성형 AI 환경에서도 재사용 가능한 구조로 업사이클링한 사례”라고 평가했다.


임민지 기자 minzi56@etnews.com

[Copyright © 전자신문. 무단전재-재배포금지]