컨텐츠로 건너뛰기
검색
ITWorld 언론사 이미지

구글, 빅쿼리에 자연어 주석 기반 SQL 생성 기능 도입

ITWorld
원문보기

구글, 빅쿼리에 자연어 주석 기반 SQL 생성 기능 도입

서울맑음 / -3.9 °

구글이 자사 데이터 웨어하우스 서비스인 빅쿼리(BigQuery)에 자연어 주석을 활용해 SQL 쿼리 일부를 생성하는 새로운 AI 기능을 미리 공개했다. 구글은 이 기능이 데이터 분석 속도를 높이고, 복잡한 쿼리를 다루는 데 따른 진입 장벽을 낮춰 기업들이 데이터 접근을 단순화하고 AI 파일럿 프로젝트를 실제 프로덕션 환경으로 전환하는 데 도움이 될 것이라고 설명했다.


새 기능인 ‘코멘트 투 SQL(Comments to SQL)’은 개발자와 데이터 분석가가 SQL 주석에 자연어로 작성한 지시를 빅쿼리 스튜디오(BigQuery Studio) 내부에서 실행 가능한 쿼리로 변환한다. 이를 통해 사용자는 기존의 복잡한 SQL 문법에 익숙하지 않더라도 자연어 설명을 활용해 쿼리 작성을 보다 쉽게 진행할 수 있다.


사용하려면 먼저 빅쿼리 스튜디오에서 SQL 생성 위젯을 활성화해야 한다. 이후 /**/로 구분된 SQL 주석 안에 자연어로 지시 사항을 작성하면 된다. 예를 들어 조회하고 싶은 컬럼, 사용할 데이터세트, 적용할 필터 조건 등을 설명하는 방식이다. 구글의 머신러닝 엔지니어링 매니저 가우탐 굽타는 블로그를 통해 이 같은 활용 방법을 소개했다.


작성한 자연어 지시는 편집기 옆에 표시되는 제미나이 버튼을 클릭한 뒤 ‘주석을 SQL로 변환(Convert comments to SQL)’ 옵션을 선택하면 SQL로 변환된다. 이 과정에서 시스템은 해당 지시에 맞는 쿼리를 생성하고, 주석이 실행 가능한 SQL로 어떻게 바뀌었는지를 보여주는 비교 화면도 함께 제공한다. 굽타는 개발자가 지시 내용을 계속 수정해 원하는 결과에 도달할 수 있으며, 최종 결과는 확장된 뷰에서 확인할 수 있다고 설명했다.


굽타는 ‘코멘트 투 SQL’ 기능이 실제로 어떻게 활용되는지를 보여주기 위해 여러 예시를 공개했다. 다음은 사용자가 SQL 주석에 자연어로 윈도우 함수와 매출 순위 계산을 요구하고, 이를 반영한 쿼리가 자동으로 생성되는 사례다.


예를 들어 사용자가 다음과 같이 쿼리의 윤곽을 주석 형태로 작성하면,


SELECT /* product name, monthly sales, and rank of products by sales within each category */FROM /* sales_data */WHERE /* year is 2023 */WINDOW /* partition by category order by monthly sales descending */

시스템은 이를 바탕으로 아래와 같은 SQL 쿼리를 생성한다.


SELECT
    product_name,
    SUM(monthly_sales) AS total_monthly_sales,
    RANK() OVER (PARTITION BY category ORDER BY SUM(monthly_sales) DESC) AS sales_rank
FROM
    `sales_data`
WHERE
    EXTRACT(YEAR FROM sale_date) = 2023
GROUP BY
    product_name, category, EXTRACT(MONTH FROM sale_date)

다만 굽타는 이 기능이 아직 “/* 2023년 기준으로 월간 매출을 기준 삼아 카테고리별 제품 목록과 순위를 보여달라 */”와 같은 단일 자연어 문장만으로 사용자가 의도한 결과를 완전히 만족하는 쿼리를 자동으로 생성하는 단계에는 이르지 못했다고 설명했다.


일상 업무에서 마찰 줄이기

데이터 업무를 담당하는 사람은 문법이 아니라 질문과 결과를 중심으로 사고하는 경향이 있다. 무어 인사이트 앤드 스트래티지(Moor Insights and Strategy)의 수석 애널리스트 로버트 크레이머는 “의도를 정확하고 효율적인 SQL로 옮기는 데는 여전히 시간이 걸린다. 특히 조인, 시간 관련 로직, 반복적인 패턴이 포함될수록 부담이 커진다. SQL 주석 안에서 자연어 표현을 허용함으로써, 구글은 SQL을 실행 계층으로 유지하면서도 이러한 변환 과정을 빠르게 하려는 시도를 하고 있다”라고 분석했다.


새 기능이 도입되면 팀은 쿼리를 작성하고 다시 고치는 데 드는 시간을 줄이고, 결과를 해석하는 데 더 많은 시간을 쓸 수 있게 된다. 크레이머는 이로 인해 장기적으로는 분석 프로세스의 자동화 수준이 높아지고, 인사이트 도출 속도가 빨라지며, 팀 간 업무 인계 과정이 줄어들고 쿼리 초기 설정에 소요되는 시간도 절감될 수 있다고 설명했다.


구글은 개발자와 데이터 분석가의 SQL 작업을 돕기 위해 빅쿼리에 AI 기반 기능을 지속적으로 추가하고 있다.


지난해 11월에는 대규모 분석 작업의 복잡성을 줄이기 위해 AI 기반 관리형 SQL 함수 3가지를 새로 도입했다. 추가된 함수는 AI.IF, AI.CLASSIFY, AI.SCORE로, 비정형 데이터를 다루는 기업 환경에서 활용도를 높이는 데 초점을 맞췄다.


이들 함수는 SQL 쿼리 안에서 AI를 직접 활용할 수 있도록 설계됐다. AI.IF는 WHERE나 ON 절에서 데이터의 의미를 기준으로 필터링이나 조인을 수행하는 데 활용된다. AI.CLASSIFY는 GROUP BY 절에서 비정형 텍스트나 이미지를 분류하는 데 쓰이며, AI.SCORE는 ORDER BY 절에서 자연어 기준에 따라 행의 우선순위를 매기고 정렬하는 기능을 제공한다.


이에 앞서 지난해 8월에는 빅쿼리에 적용된 데이터 엔지니어링 에이전트와 데이터 사이언스 에이전트에 대한 점진적인 업데이트를 진행했다. 해당 에이전트는 같은 해 4월 연례 행사인 구글 클라우드 넥스트(Google Cloud Next)에서 처음 공개된 기능으로, 데이터 분석 작업의 자동화를 지원하기 위해 도입됐다.


데이터 엔지니어링 에이전트는 데이터 파이프라인 구축과 데이터 변환, 파이프라인 장애 진단 등을 지원한다. 데이터 사이언스 에이전트는 한 단계 더 나아가 다단계 계획 수립부터 코드 생성과 실행, 결과에 대한 추론, 분석 결과 제시까지 데이터 사이언스 전 과정을 자동화하는 역할을 맡고 있다.


산업 전반의 흐름

AI를 SQL에 통합하려는 시도는 구글만의 움직임은 아니다. 데이터 웨어하우스와 분석 서비스 전반에서 유사한 흐름이 확산되고 있다.


데이터브릭스는 이미 SQL이나 파이썬에서 생성형 AI나 LLM 추론을 직접 적용할 수 있는 AI 함수(AI Functions)를 제공하고 있다. 스노우플레이크 역시 문서 파싱과 의미 기반 검색, AI 기반 분석을 지원하는 AI_PARSE_DOCUMENT, AISQL, 코텍스(Cortex) 함수를 운영 중이다.


이 밖에도 오라클의 자율 데이터 웨어하우스(Autonomous Data Warehouse) 등 다른 데이터 웨어하우스 서비스도 SQL 워크플로우에서 AI 기능을 지원한다.


dl-itworldkorea@foundryco.com



No Author editor@itworld.co.kr
저작권자 Foundry & ITWorld, 무단 전재 및 재배포 금지