본문으로 바로가기
41954066 0242017120841954066 08 0801001 5.17.9-RELEASE 24 이데일리 41827957

네이버, '2017 웹커넥트 데이' 개최..사이트 검색 강화

글자크기
[이데일리 김유성 기자] 네이버(035420)가 7일 오후 역삼동 파트너스퀘어에서 웹호스팅 업체, 웹사이트 제작 대행사 실무진, 광고·마케팅 담당자를 대상으로 ‘2017 웹커넥트 데이’를 진행했다. 그 간 웹문서 검색의 연구 과정과 향후 방향성 등에 대해 공유하는 시간을 가졌다.

김상범 네이버 웹검색 리더는 키노트를 통해 “네이버는 한국어 웹문서가 척박했던 2000년대 초반부터 양질의 문서와 사이트를 구축해 잘 보여주기 위한 노력을 지속해왔다”며 “최근에는 AI기반의 웹검색 기술 발전에 맞춰 수집, 스팸, 랭킹 시스템을 개선하고, 학술전문자료나 외부 사이트 검색도 강화하는 방향으로 연구를 이어가고 있다”고 말했다.

네이버는 웹문서 검색 고도화를 위한 ‘그리핀(Griffin) 프로젝트’의 방향성에 따라 AI 기반의 기술을 접목했다. 웹문서를 실시간 수집하고 자연어이해 기반의 스팸을 탐지한다. 투명성을 강화한 검색 랭킹에 대한 연구도 소개했다.

이데일리

<이미지를 클릭하시면 크게 보실 수 있습니다>


문서 수집 시스템의 경우, 실시간 스트리밍(Streaming) 구조로 개선해 수집 로봇이 뉴스, 위키백과 등 신규 콘텐츠를 상시 분석했다. 새롭게 등장하는 웹문서를 발견해 신속하게 수집할 수 있도록 했다. 또한 학술전문정보나 해외의 가치있는 사이트 및 웹문서 수집도 적극 강화했다.

네이버는 딥러닝을 적용해 문서의 노출과 클릭 패턴뿐만 아니라, 문서 내용의 충실성까지 판단해 스팸을 제거하는 시스템에 대해서도 소개했다. 자연어이해(Natural Language Understanding) 기반의 웹 스팸 추출 로직을 개발하여, AI가 자동으로 복잡하고 다양해진 스팸 문서를 학습해 제거할 수 있도록 개선했다. 예를 들어, TextCNN 등 딥러닝 기반의 자연어이해 기술을 활용해 스팸 문서들이 자주 사용하는 단어 셋을 학습하여 성인, 도박, 보험 관련 스팸들을 제거하는 방식이다.

‘웹검색과 랭킹’ 세션을 발표한 김상범 리더는 “네이버 뿐만 아니라 구글, 야후 등 검색 사업자들은 검색 랭킹을 결정하는 시그널(요소)을 외부에 공개하기 어렵다”며 “랭킹 시그널을 공개하는 순간, 해당 랭킹시그널을 이용하려는 외부 시도들에 의해 그 랭킹시그널은 빠른 시일 내에 무력화되기 때문”이라고 덧붙였다.

또한 네이버는 웹사이트 운영에 도움이 될 만한 실질적인 정보들을 공유하는 세션과 쉬는 시간 동안 웹사이트 운영자들이 궁금증을 해결할 수 있는 부스도 마련했다. 실제로 추첨을 통해 선정된 일부 사이트 관리자들에게는 네이버 실무진들이 일대일로 사이트 진단을 해주는 컨설팅 기회도 제공됐다.

한편 네이버는 웹문서와 사이트 검색을 ‘웹사이트’로 통합하는 개선을 시작했다.

김종범 네이버 웹검색 프로덕트 매니저는 “기존에는 별도로 존재하는 두 영역에서 클릭 수가 분산됨으로써, 각각의 영역이 통합검색 결과에서 아래쪽에 위치하는 경향이 있었다면, 두 영역이 통합되면서 ‘웹사이트’ 영역이 상단에 더 잘 노출될 가능성도 생겼다”며, “네이버는 현재 ‘웹사이트’ 영역의 수집 대상을 웹문서에 한정하고 있지만, 향후 다양한 시도를 거쳐 네이버 내부문서까지 포함하는 것도 고려할 예정이다”고 말했다.

<ⓒ종합 경제정보 미디어 이데일리 - 무단전재 & 재배포 금지>
페이스북 공유 트위터 공유 댓글