AI 풀스택 기업 엘리스그룹이 한국어 교육용 데이터셋 2종을 글로벌 오픈소스 플랫폼 허깅페이스(Hugging Face)에 공개했다. 한국어 AI 모델 학습에 적합한 데이터를 연구자, 개발자, 기업이 활용할 수 있도록 제공해 국내외 AI 연구 및 개발을 지원하겠다는 취지다.
이번에 공개된 데이터셋은 거대언어모델(LLM)의 한국어 성능을 학술 및 교육 분야에서 강화하기 위해 설계됐다. 한국어 파인웹 교육 데이터셋 데모(Korean FineWeb-Edu Demo)와 한국어 웹 텍스트 교육 데이터셋(Korean-webtext-edu) 2종으로 구성된다.
한국어 파인웹 교육 데이터셋 데모는 영문 교육용 웹 텍스트 코퍼스인 FineWeb-Edu를 한국어로 번역한 데이터셋의 5%를 샘플 형태로 제공하는 것이다. 대규모 학습에 앞서 데이터 특성과 활용 가능성을 검증하는 용도로 설계됐다. 원본 데이터셋은 약 1,900억 토큰 규모로 수천만 페이지 분량에 해당하며, 다국어 데이터와 함께 활용할 경우 파운데이션 모델 학습에 활용할 수 있는 수준이다.
함께 공개된 한국어 웹 텍스트 교육 데이터셋은 대규모 한국어 웹 텍스트에서 교육적 가치가 높은 콘텐츠만 선별해 구축한 것으로, 사실성과 문맥 일관성, 교육 적합성을 기준으로 평가해 구성했다.
엘리스그룹은 이번 공개를 통해 한국어 AI 연구의 진입 장벽을 낮추고, 교육과 연구, 공공 영역에서 한국어 AI 모델 활용을 지원할 계획이다. 또한 AI 인프라와 클라우드, 데이터 엔지니어링 역량을 연계해 한국어 특화 AI 서비스 개발을 가속화한다는 전략이다.
김수인 엘리스그룹 CRO는 "데이터 접근성과 품질은 AI 기술 발전의 핵심 요소"라며 "연구자와 개발자, 기업이 쉽게 활용할 수 있는 고품질 데이터셋을 구축했다"고 밝혔다. 이어 "데이터와 모델, 인프라를 아우르는 기술 역량을 기반으로 한국어 AI 연구와 산업 생태계 성장에 기여하겠다"고 덧붙였다.
글 : 플래텀(editor@platum.kr)
ⓒ '스타트업 전문 미디어 & 중화권 전문 네트워크' 플래텀, 조건부 전재 및 재배포 허용
