컨텐츠 바로가기

12.30 (월)

은퇴자 몰린다는 ‘AI 눈알 붙이기’ 뭐길래…

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
‘AI 데이터 라벨링’ 해보니


인공지능(AI) 데이터 라벨링을 아시는지.

AI 시대가 도래하고 있다지만, 정작 똑똑한 AI를 만들어내기 위해서는 아직도 방대한 양의 데이터를 별도로 입력한 후 AI를 훈련시켜야 한다. 이런 검수 작업을 모두 사람이 하는데, 이 작업이 바로 ‘데이터 라벨링’이다. 단순히 데이터를 입력하는 것이 아니다. AI가 학습할 데이터를 목적에 맞게 구분하고 속성값을 입력하는 작업을 뜻한다. 최근에는 ‘AI 눈알 붙이기’라는 별칭으로 유명해졌다. 대표적인 부업으로 통하는 ‘인형 눈알 붙이기’만큼 쉽고 단순한 업무로 누구나 참여할 수 있어 중장년층과 장애인 협력을 늘리고 있다는 후문이다. 정말 ‘누구나 쉽게’ 할 수 있는 일일까? AI 모델 학습에 필요한 데이터를 전문적으로 공급하는 기업 ‘바운드포’에서 AI 데이터 라벨링 업무를 체험해봤다.

매경이코노미

AI 데이터 라벨링 기법인 ‘세그멘테이션’은 ‘그림판’처럼 사물이나 공간을 색칠하는 방식이다. (윤관식 기자)

<이미지를 클릭하시면 크게 보실 수 있습니다>


가이드라인 등 교육만 ‘24시간’

보수는 “시급 아닌 건당” 기준

데이터 라벨링을 본격적으로 체험하기 전, 가이드라인 교육을 무조건 받아야 한다. 약 1시간 동안 ‘이론 교육’ 시간에 두 가지 주요 데이터 라벨링 방식인 ‘세그멘테이션(Segmentation)’과 ‘바운딩 박스(B-BOX)’ 작업 방법을 배웠다. 세그멘테이션은 이미지에 포함된 객체를 최소 단위인 픽셀(Pixel) 수준으로 세밀하게 구분해 채색하는 것을 의미하고, 바운딩 박스는 객체를 네모난 박스로 감싸는 기법이다.

사실 1시간여 이론 교육만 받고 실제 업무에 참여하기 어렵다. 바운드포는 기본 교육을 포함해 하루 3시간씩 8일간 총 24시간에 걸친 실습 교육을 요구한다. 교육 장소도 본인 집이 아닌 강남과 충무로 등에 마련된 교육장이다. 교육 기간 보수는 따로 지급되지 않지만, 실습 중 수행한 라벨링 작업에 대해서는 소정의 금액이 지급되기도 한다. 바운드포 관계자는 “일부 중장년층은 정부의 취업 지원 프로그램을 통해 교육 기간에도 소정의 지원금을 받으며 참여하고 있다”고 들려줬다. 교육을 모두 이수하고 실습 평가를 통과한 우수자에게는 우수 수료증이 수여된다. 이 수료증을 받으면 실제 업무에 참여할 수 있는 자격이 주어진다. 현재 바운드포에 등록된 데이터 라벨러는 비상시 인력 포함 약 1000여명에 달한다. 보수는 시급이 아닌 라벨링을 완료한 이미지 건수에 따라 책정되는 구조다.

‘건당 3000원’ 라벨링 해보니

‘그림판’ 색칠 잘하면 유리

첫 번째로 도전한 라벨링은 ‘세그멘테이션’ 기법. ‘그림판’처럼 사물이나 공간을 색칠하는 방식으로, AI가 이미지 내 사물을 보다 정교하게 인식할 수 있도록 돕는 작업이다. 가령, 자율주행차의 AI가 도로 위 자동차, 사람, 신호등 등을 구분할 때, 이 세그멘테이션 작업 데이터를 바탕으로 주위 환경을 이해하고 학습할 수 있게 도와주는 식이다. 이 작업은 정교함을 필요로 하기 때문에 이미지 한 건당 3000~4000원이 지급된다.

기자가 배정받은 이미지는 ‘자동차가 달리는 도로’. 자동차 11대가 다니는 도로 옆으로 전철이 지나가는 이미지다. 이미지 속 자동차 11대 각각은 물론 도로는 도로대로, 하늘은 하늘만 구분될 수 있도록 채색해야 한다. 과정은 생각보다 복잡했다. 마우스로 한 픽셀씩 조심조심 경계를 따라 칠해나가다 보니 작업 속도가 매우 느릴 수밖에 없다. 자동차 한 대 경계를 모두 채색하는 데만 5분 이상이 소요됐다. 경계선을 조금이라도 벗어나거나, 객체와 객체 사이 구분이 불명확하면 검수 과정에서 불합격 처리인 ‘반려’가 될 수 있다.

단, 숙련도에 따라 소요 시간은 천차만별이다. 보통 2~3년 경험치가 쌓이면 전체 이미지를 채색하는 데 걸리는 시간이 10분 내로 줄어든다는 게 회사 측 설명. 사진관을 운영하며 데이터 라벨링을 부업으로 하는 한 60대 라벨러는 월 700만원의 수입을 거두기도 했다고. 바운드포 관계자는 “완벽주의에서 벗어나 일단 작업을 시작하는 자세가 중요하다”며 “채색 도구 크기를 줄이고, 테두리에 닫힌 라벨링 공간을 채워주는 기능을 활용하면 더 쉽게 채색할 수 있다”고 팁을 알려줬다.

매경이코노미

AI 데이터 라벨링 기법인 ‘바운딩 박스’는 마치 ‘화면 캡처’를 하듯 이미지 속 사물 경계를 네모난 박스로 감싸는 작업이다. (바운드포 제공)

<이미지를 클릭하시면 크게 보실 수 있습니다>


‘바운딩 박스’ 방식은 비교적 단순

‘화면 캡처’ 잘하면 ‘클릭당 100원’

다음으로 체험한 ‘바운딩 박스’는 앞선 작업보다 비교적 단순해 보였다. 마치 ‘화면 캡처’를 하듯 이미지 속 사물 경계를 네모난 박스로 감싸면 끝. 세그멘테이션과 마찬가지로 AI가 물체를 인식하고 구분하는 것을 돕는 작업이다. 단 한 번의 클릭으로도 이미지 내 객체를 빠르게 구분할 수 있기 때문에 빠르게 진행되는 장점이 있다. 바운딩 박스는 세그멘테이션에 비해 난이도가 낮은 단순 작업인 만큼, 통상 하나의 박스를 처리하는 이미지 한 건당 100원을 지급받는다.

이 작업에서도 중요한 것은 정확성이다. 사물을 감쌀 때 박스 모서리가 사물 경계선과 완벽하게 일치하거나 최대한 근접하게 그려야 한다. 특히 이미지 내에 여러 객체가 겹치는 경우, 각 객체의 경계를 정확하게 구분해야 한다. 만약 경계선에 빈 공간이 생기거나 불필요한 픽셀이 포함되면 검수 단계에서 역시 공포의 ‘반려’ 처리가 될 수 있다.

실제 작업해보니, 많은 객체가 등장하는 이미지일수록 작업이 까다롭다. 다수 객체가 겹치거나 경계가 명확하지 않은 경우, 여러 번 수정 작업을 거쳐야 했다. 하지만 바운딩 박스는 세그멘테이션에 비해서는 라벨링 ‘초보자’가 진행하기 적합했다. 첫 작업임에도 10분에 10개 이상 이미지를 비교적 완벽히 처리할 수 있었다. 10분에 1000원 이상 번 셈. 그래 봐야 1시간에 6000원으로 최저임금에도 미치지 못하지만.

총평. 두 방식 모두 처음에는 어렵지만, 누구나 할 수 있는 단순 작업이기 때문에 숙달되면 매력적인 재택 알바가 될 법하다. 황인호 바운드포 대표는 “바운드포 라벨링 인력 중 80% 이상이 60대 이상 중장년층이거나 장애인”이라며 “현재 인천, 광주 등 지역에서도 교육 참여 인원을 늘리고 있다”고 말했다.

데이터 라벨링 일자리 전망은?

“전망 밝지만 전문화는 변수”

일자리 전망은 어떨까. AI 데이터 라벨링은 이미 국내외를 포함해 번듯한 재택 알바로 자리 잡았다. 한국수출입은행은 세계 데이터 라벨링 시장 규모가 2021년 10조원에서 2025년 39조원대로 성장할 것으로 내다본다. 그만큼 시장이 확대된다는 뜻이다. 국내에서도 바운드포 외에 데이터 라벨러로 일할 수 있는 플랫폼이 적지 않다. ‘셀렉트스타’ ‘라벨온’ ‘크라우드웍스’ 등이 대표적이다. 상상인증권 보고서에 따르면 ‘크라우드웍스’의 연간 매출액은 지난 2020년 74억원에서 지난해 240억원까지 성장했다.

업계 관계자들은 AI 산업이 성장할수록 데이터 라벨링 일자리 전망은 밝다고 입을 모은다. AI 기술 발전에 따라 데이터 수요도 폭증해 데이터 라벨러의 일감도 늘어나는 구조기 때문. 단, 향후 의료용 AI, 통번역 AI 등 전문적인 데이터를 다루는 라벨링 일감이 많아지는 경우 단순 작업 중심 라벨링 일감이 줄어들 수 있다는 점은 변수다.

셀렉트스타 관계자는 “바운딩 박스와 같이 단순 업무를 요하는 라벨링의 경우 지원 경쟁률이 높지만, 난이도가 높은 업무는 지원자가 부족한 상황”이라며 “최근 AI가 발전됨에 따라 라벨링 산업 초반의 ‘AI 눈알 붙이기’가 아닌 전문성을 요하는 고도화된 라벨링 작업이 필요해졌다”고 분위기를 전한다.

[조동현 기자 cho.donghyun@mk.co.kr, 김범준 인턴기자]

[본 기사는 매경이코노미 제2279호 (2024.10.09~2024.10.15일자) 기사입니다]

[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.