컨텐츠로 건너뛰기
검색
한국일보 언론사 이미지

도서관 빅데이터를 AI가 학습 가능한 형태로 고도화

한국일보
원문보기

도서관 빅데이터를 AI가 학습 가능한 형태로 고도화

속보
중국군, 오늘부터 대만 포위 전방위 훈련…무력 경고
[2025 우수특허대상] 디카이브


디카이브(대표 김준호)는 도서관과 연구기관에 축적된 방대한 원문 데이터를 AI 학습에 적합한 형식으로 구조화·전환하는 기술을 개발해 온 디지털 아카이빙 및 AI 데이터 구축 전문기업이다. 원문 데이터의 구조 분석, 자동화 처리, 고품질 학습데이터 생산기술 고도화에 주력하고 있다.

국내 도서관에는 책·학술지 등을 스캔해 이미지·텍스트로 구축한 방대한 원문 DB가 존재한다. 누구나 열람할 수 있지만, AI 학습에 필요한 구조가 정비되지 않아 활용이 제한돼 왔다.

디카이브는 이를 해결하기 위해 ‘주제별 텍스트 분류 및 데이터셋 생성 방법’ 등 자사 특허 기술을 기반으로 원문 데이터를 자동 분석·정리·분류해 사람이 읽는 데이터에서 AI가 학습 가능한 형태로 전환하는 기술을 고도화하고 있다.

이를 위해 개발된 ‘Works PMS’는 스캔·보정·PDF 제작 등 DB 구축 전 과정을 표준화·자동화한 시스템으로, 여러 도서관 사업에서 안정적으로 운영 중이다. 여기에 AI 기반 문서 분석, 주제 분류, 개인정보 마스킹 기술 등이 더해지며 AI 학습데이터 생산 플랫폼으로 고도화되고 있다.