컨텐츠 바로가기

06.03 (월)

‘스타트업과 딥러닝이 만나면?’, 세 스타트업 개발자의 딥러닝 토크

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
인공 지능이 대세다. 인공 지능을 위해서는 대용량 컴퓨팅과 빅데이터 그리고 우수한 인력이 필요하다. 그렇기 때문에 인공 지능은 아마존, 구글, 페이스북 가까이는 네이버나 카카오와 같은 대기업의 전유물처럼 생각될 때가 많다.

하지만 의외로 그 주인공은 오히려 스타트업이다. 직장인을 위한 채용 공유 사이트 원티드랩, 초중고생을 위한 Q&A 서비스 콴다를 만드는 매스프레소, 그리고 스마트폰 잠금 화면 서비스를 만드는 버즈빌 등이 어떻게 클라우드를 통해 AI 서비스를 구현할 수 있었는지 이야기를 들어보았다.

플래텀

<이미지를 클릭하시면 크게 보실 수 있습니다>


좌측부터 홍진우(원티드랩 개발자), 정원국(매스프레소 CTO), 위동윤(버즈빌 개발자)



Q: 각자 운영하고 있는 서비스와 인공 지능 활용 기능에 대해 간단히 소개해 달라.

홍진우(원티드랩 개발자, 이하 홍): 지인에게 딱 맞는 일자리를 추천하고 합격 시 50만원 이상의 보상금을 주는 원티드라는 채용 플랫폼이다. 사용자와 회사들이 입력한 데이터들을 분석하여 채용 과정에서 최적의 매칭 작업에 딥러닝을 활용하고 있다.

정원국(매스프레소 CTO, 이하 정): 콴다는 공부를 하다 모르는 문제가 있으면 활동중인 선생님에게 편하게 질문하며 공부할 수 있는 앱이다. 올해 4월 문자 인식(OCR) 기술을 기반으로 기출 문제 사진을 찍으면 해설을 검색할 수 있는 서비스를 베타 버전으로 출시했다. 어떤 문제든 찍으면 답을 검색할 수 있는 문제계의 샤잠 같은 서비스를 만들고자 한다. 그런데, OCR이 핵심이다 보니 인공 지능 기술이 꼭 필요했다.

위동윤(버즈빌 개발자, 이하 위): 이미지와 텍스트로 구성된 광고나 뉴스와 같은 컨텐츠들을 스마트폰 잠금화면에서 제공하고 있다. 사용자에게 콘텐츠를 주다 보니 필터링과 추천 등에 있어 인공 지능 기술은 필수다.

Q: 스타트업의 인력과 예산으로 인공 지능을 도입하기는 어려웠을 텐데.

정: 딥러닝 기술 자체는 텐서플로 같은 오픈 소스 프레임워크와 예제 자료가 많아서 진입 장벽이 상대적으로 높지 않지만, OCR 인식 같은 기술에 들어가면 이야기가 달라진다. 수많은 학습과 튜닝이 필요하다. 문제를 인식하고 해설을 검색하는 두 가지 모두 중요하지만, 높은 서비스 퀄리티를 위해서는 OCR 성능이 특히 중요하다. 한글이나 수식 등 다양한 텍스트를 인식하기 위해 CNN 기반의 OCR 모델을 구현하고 해설 검색에도 사용하고 있다.

홍: 원티드 서비스에도 이력서가 들어오면 거기에 텍스트를 분석하고, 이미지를 분석하는 등의 작업이 필요한데, 딥러닝 학습 모델을 통해 많은 성능 개선을 얻었다. 문제는 일반 PC나 물리 서버에서는 학습 환경 구축에 들어가는 비용이나 시간이 많이 걸린다는 점이다. 아마존웹서비스(AWS)에서는 다양한 GPU 인스턴스(가상 서버)를 제공해 주면서 이를 탄력적으로 활용 가능한 것이 큰 장점이다.

위: 우리도 마찬가지다. 딥러닝 중 어떤 학습 모델은 CPU가 좋아야 하고, 어떤 것은 GPU가 좋아야 한다. 목적에 따라 다양한 연산 장치가 필요한데, AWS에서는 C5(컴퓨팅), G3(그래픽), P2(범용 GPU) 등 다양한 인스턴스 타입이 있다. 특히, 대용량 데이터에 딥러닝 알고리즘을 적용할 경우, 반복적인 대량 행렬 연산이 필요하기 때문에 GPU 인스턴스는 필수다. 시간이 돈이기 때문에 짧은 시간에 학습을 끝낼 수 있다는 점은 매우 큰 장점이다.

Q: 더 나은 AI 학습을 위해 더 추가되었으면 하는 기능은 없나?

위: 데이터 파이프라인이다. 인공 지능 학습에는 필연적으로 대량의 데이터를 처리하는 데이터 파이프 라인의 구축이 있어야 한다. 데이터 처리가 이루어지는 각각의 인스턴스가 다양하게 구성될 경우가 많다. 이 경우, 보안이나 데이터 입출력 과정에서 발생하는 속도 저하 등 다양한 문제가 발생하여 개발 및 유지보수에 까다로울 수 있다. 클라우드 사업자들이 효율적이고 간편한 AI 전문 데이터 파이프 라인을 제공한다면, 더 효율적인 AI/ML 서비스 개발이 가능해질 것이라고 기대한다.

홍: 동의한다. 데이터전처리를 할 수 있는 AWS Glue라는 ETL 서비스가 나왔고, Kinesis Firehose 같은 데이터 파이프라인 서비스도 있다. 딥러닝 학습 데이터를 서로 이동하는 방법이나 아니면 아예 딥러닝 매니지드 서비스가 나와줘도 좋을 것 같다.

Q: 향후 AI 활용 계획을 살짝 귀띔해 주신다면?

홍: 이력서와 회사 간 매칭 알고리즘을 계속해서 발전시켜 나가기 위해서 자연어 처리, 챗봇 기술 등을 활용하여 고도화하는 작업을 진행할 예정이다. 일본을 비롯한 해외 서비스도 준비 중인데 챗봇 AI 서비스에 대한 기대가 크다.

위: 기존에 자동화가 어려웠던 광고 추천이나 고객 세그먼테이션, 어뷰저 적발 등 회사의 전반적인 서비스 및 업무에 적용이 가능할 것 같다. 더불어 이미지, 텍스트와 같은 비정형 데이터 처리를 위한 API도 활용할 계획을 갖고 있다.

정: 지금은 서비스 퀄리티를 향상시키기 위한 작은 연구들부터 진행하고 있다. 선생님을 매칭하는 데 걸리는 시간 예측하기, 문제의 난이도 예측하기 등이다. 학생의 질문 및 문제풀이 데이터들을 활용하여 학생의 상태를 분석하고 컨텐츠를 추천하기 위한 연구 또한 진행하고 있다. 클라우드 덕분에 이런 실험을 다양하게 시도해 볼 수 있어서 좋은 것 같다.

Q: 딥러닝을 활용하려는 스타트업에 대해 조언을 주신다면?

홍: 사업 초기부터 어떤 데이터를 어떻게 체계적으로 쌓을 것인지에 대해서 생각해보면 좋을 것 같다. 이미 사업을 오래 운영해 왔다면 사업의 핵심 부분이 무엇인지를 파악해서 그 부분에 딥러닝을 적용해 보길 권한다.

정: 맞다. 세상에서 우리가 활용할 수 있는(또는 쌓을 수 있는) 데이터가 얼마나 있고, 그 데이터가 가져다줄 수 있는 가치가 어디까지 인지를 끊임없이 고민해야 한다. OCR 같은 이미지 인식은 데이터량이 매우 중요한데, OCR은 데이터를 여러 방향으로 합성하여 만들어 학습하는 것이 가능하기 때문에 딥러닝을 택했다. AI 적용 방식에 따라 데이터양은 얼마든지 만들어 낼 수 있다.

위: 서비스 분야에 따라 다를 것 같아 조심스럽지만, 딥러닝 기술 자체는 커뮤니티와 오픈소스 생태계 덕분에 정말 정말 쉬워진 시대가 됐다. 아직 딥러닝 검토 전이라면 AI의 흐름을 관심 가지고 계속 지켜보시고, 가능성이 있어 보인다면 겁없이 도전해 보는 것도 좋을 것 같다.

플래텀

윤석찬 / AWS 테크 에반젤리스트


윤석찬 테크 에반젤리스트는 AWS 클라우드 기술을 전파하며 개발자들이 클라우드를 활용할 수 있도록 지원하는 역할을 하고 있다. 웹 개발자로 인터넷 업계에 투신해 스타트업 CTO, 오픈 소스 커뮤니티 리더 및 IT분야 블로거 등 다양한 역할을 수행했고, 다음커뮤니케이션에서 연구개발 부서 리더 및 오픈 API 플랫폼 에반젤리스트로서 API 플랫폼 구축 및 외부 개발자 지원을 담당했다.

글: 플래텀 외부기고(contribution@platum.com)

ⓒ '스타트업 전문 미디어 & 중화권 전문 네트워크' 플래텀, 조건부 전재 및 재배포 허용
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.