[2025 우수특허대상] 디카이브
디카이브(대표 김준호)는 도서관과 연구기관에 축적된 방대한 원문 데이터를 AI 학습에 적합한 형식으로 구조화·전환하는 기술을 개발해 온 디지털 아카이빙 및 AI 데이터 구축 전문기업이다. 원문 데이터의 구조 분석, 자동화 처리, 고품질 학습데이터 생산기술 고도화에 주력하고 있다.
국내 도서관에는 책·학술지 등을 스캔해 이미지·텍스트로 구축한 방대한 원문 DB가 존재한다. 누구나 열람할 수 있지만, AI 학습에 필요한 구조가 정비되지 않아 활용이 제한돼 왔다.
디카이브는 이를 해결하기 위해 ‘주제별 텍스트 분류 및 데이터셋 생성 방법’ 등 자사 특허 기술을 기반으로 원문 데이터를 자동 분석·정리·분류해 사람이 읽는 데이터에서 AI가 학습 가능한 형태로 전환하는 기술을 고도화하고 있다.
이를 위해 개발된 ‘Works PMS’는 스캔·보정·PDF 제작 등 DB 구축 전 과정을 표준화·자동화한 시스템으로, 여러 도서관 사업에서 안정적으로 운영 중이다. 여기에 AI 기반 문서 분석, 주제 분류, 개인정보 마스킹 기술 등이 더해지며 AI 학습데이터 생산 플랫폼으로 고도화되고 있다.
디카이브(대표 김준호)는 도서관과 연구기관에 축적된 방대한 원문 데이터를 AI 학습에 적합한 형식으로 구조화·전환하는 기술을 개발해 온 디지털 아카이빙 및 AI 데이터 구축 전문기업이다. 원문 데이터의 구조 분석, 자동화 처리, 고품질 학습데이터 생산기술 고도화에 주력하고 있다.
국내 도서관에는 책·학술지 등을 스캔해 이미지·텍스트로 구축한 방대한 원문 DB가 존재한다. 누구나 열람할 수 있지만, AI 학습에 필요한 구조가 정비되지 않아 활용이 제한돼 왔다.
디카이브는 이를 해결하기 위해 ‘주제별 텍스트 분류 및 데이터셋 생성 방법’ 등 자사 특허 기술을 기반으로 원문 데이터를 자동 분석·정리·분류해 사람이 읽는 데이터에서 AI가 학습 가능한 형태로 전환하는 기술을 고도화하고 있다.
이를 위해 개발된 ‘Works PMS’는 스캔·보정·PDF 제작 등 DB 구축 전 과정을 표준화·자동화한 시스템으로, 여러 도서관 사업에서 안정적으로 운영 중이다. 여기에 AI 기반 문서 분석, 주제 분류, 개인정보 마스킹 기술 등이 더해지며 AI 학습데이터 생산 플랫폼으로 고도화되고 있다.
