개발 과정을 이해하는 주도적 AI…클로드 4 실험에서 가능성 입증 : zum 뉴스

앤트로픽(Anthropic)은 클로드(Claude) 4 모델을 발표하면서 마케팅의 초점을 추론과 코딩 기능 개선에 맞췄다. 그러나 지난 몇 달 동안 AI 코딩 어시스턴트를 사용하면서 진짜 혁명은 더 나은 코드 조각을 생성하는 것이 아니라 진정한 주도성(agency)의 부상에 있다는 사실을 발견했다.

AI 코딩 기능에 대한 논의는 대부분 구문의 정확성, 벤치마크 점수, 또는 잘 작동하는 코드 생성 능력과 같은 좁은 영역에 머물러 있다. 그러나 필자는 클로드 4를 직접 테스트하면서 그보다 훨씬 더 중요한 사실을 깨달았다. 바로 단순한 코드 생성을 뛰어넘어 개발 목표를 전체적으로 이해하고 솔루션을 완성할 때까지 부단히 노력하고 장애물을 자율적으로 극복해 나갈 수 있는 AI 시스템의 등장이다.

필자는 종합 벤치마크를 사용하지 않고, 오픈AI API와 통합되는 기능적인 옴니포커스(OmniFocus) 플러그인을 구축하는 실제 개발 작업을 통해 클로드 4의 주도성을 평가해 보기로 했다. 이 작업은 단순히 코드를 작성하는 것뿐만 아니라 문서를 이해하고 오류 처리를 구현하고 일관적인 사용자 경험을 구축하고 문제를 해결하는, 문법적으로 올바른 코드를 생성하는 수준을 넘어서는 주도성과 지속성이 필요한 작업이다.

여기서 발견한 사실은 주도성 역량이 소프트웨어 개발에서 인간과 AI 시스템이 협업하는 방식을 근본적으로 바꿔놓을 잠재력을 지녔다는 것이다.

주도성을 위한 3개의 모델, 3개의 접근 방식

오퍼스 4(Opus 4)를 사용한 작업 : 코드 생성을 넘어 개발 파트너십으로

클로드 오퍼스 4를 사용하면서 이제 기술이 중요한 임계점을 넘었음을 알 수 있었다. 오퍼스 4는 구체적인 지시에 따라 코드 조각을 생성하는 데 주력하는 기존 AI 시스템과 달리 진정한 개발 주도성, 즉 개발 프로세스를 실제 작동하는 솔루션으로 독립적으로 이끌어가는 능력을 보여줬다.

데이터베이스 오류가 발생하자 오퍼스 4는 필자가 지적한 코드를 수정하는 데 그치지 않고 스스로 근본 원인을 파악해 다음과 같이 출력했다.

“I see the problem — OmniFocus plugins require using the Preferences API for persistent storage rather than direct database access. Let me fix that for you.”

“문제를 파악했습니다. 옴니포커스 플러그인을 사용하려면 직접 데이터베이스 액세스가 아닌 영구 저장을 위해 Preferences API를 사용해야 합니다. 제가 수정하겠습니다.”

그런 다음 옴니포커스의 Preferences API를 사용해 완전한 솔루션을 구현했다.

코드 생성과 진정한 주도성의 중요한 차이를 보여주는 사례다. 코드 생성기가 코드처럼 보이는 텍스트를 생성한다면 에이전트는 개발 맥락을 이해하고 문제를 파악하고 더 넓은 애플리케이션 요구사항 틀 안에서 그 문제를 해결한다.

가장 인상깊었던 부분은 오퍼스 4가 명시적인 요구사항 이상으로 작동한다는 점이었다. 따로 지시하지 않았는데도 다음과 같이 구현을 개선했다.

- API 설정을 위한 구성 인터페이스
- 디버깅을 위한 자세한 오류 메시지
- 유효하지 않은 요청을 방지하기 위한 입력 검증
- API 호출 중 진행률 표시기

이러한 부가적인 기능은 필자가 요청한 결과가 아니라 좋은 개발자 경험을 구성하는 요소에 대한 오퍼스 4의 이해에서 나온 것으로, 즉각적인 코딩 작업을 넘어서는 이해력을 보여준다.

소넷 4를 사용한 작업 : 신중한 협업자

소넷(Sonnet) 4는 기능은 강력하지만 잠재력을 더 발전시키기 위해서는 지침이 필요했다. 소넷 4와의 상호작용을 사람에 비유하면 유능하지만 정기적인 점검이 필요한 신중한 개발자와 협력하는 듯한 느낌이었다.

초기 구현에서는 작업에 대한 이해도가 높긴 했으나 API 통합에 사소한 오류가 있었다. 문제에 직면하자 소넷 4는 상황을 명확히 파악하기 위해 다음과 같이 물었다.

“I notice OmniFocus has a specific way of handling HTTP requests. Can you point me to the documentation for its URL fetching capabilities?”

“옴니포커스는 특정한 방식으로 HTTP 요청을 처리하는 것으로 보입니다. 옴니포커스의 URL 가져오기 기능에 대한 설명서를 어디에서 볼 수 있는지 알려주시겠습니까?”

소넷 4는 설명서를 받은 후 구현을 성공적으로 수정했지만 완전히 작동하는 솔루션을 얻기까지는 7~8번의 반복이 필요했다.

흥미로운 점으로, 예상치 못한 방향 전환이 한 번 있었다. 소넷 4는 오픈AI 통합에 어려움을 겪던 중 로컬 분석을 위해 해당 기능을 잠시 제거할 것을 제안했다. 작업 완료에 대한 주도성으로 볼 수도 있지만 구체적인 요구사항에는 맞지 않는다.

소넷 3.7을 사용한 작업 : 응답성이 뛰어난 툴

소넷 3.7은 코딩 어시스턴트를 사용하는 느낌이었다. 명확한 지침이 필요했으며 필자가 무엇을 만들고 있는지에 대한 전체적인 맥락을 제대로 유지하지 못했다.

소넷 3.7과의 대화는 이런 식이다.

- 필자 : “작업을 오픈AI로 전송하기 전에 TaskPaper 형식으로 변환하는 기능이 플러그인에 있어야 해.”
- 소넷 3.7 : "작업을 TaskPaper 형식으로 변환하는 함수를 구현하겠습니다." [오류 처리가 없는 기본적인 함수 구현]
- 필자 : “이제 오픈AI API 통합을 구현해야 해.”
- 소넷 3.7 : [적절한 오류 처리 또는 사용자 피드백 없는 기본적인 API 호출 구현]

오류가 발생할 경우 소넷 3.7은 독립적으로 이러한 오류를 진단하는 데 어려움을 겪었다.

- 필자 : “‘파일이 디렉터리입니다’라는 오류가 발생해.”
- 소넷 3.7 : "이상하네요. 전체 오류 메시지를 보여주시겠습니까?"
- [오류 세부 정보 제공]
- 소넷 3.7 : "파일 경로와 관련된 오류일 수 있습니다. 플러그인이 어떻게 저장되는지 확인해 보겠습니다."

이 문제로 10번 이상 상호작용한 이후에도 완벽하게 작동하는 플러그인은 얻지 못했다.

주도성 스펙트럼 : 코드 품질을 넘어

이 직접 비교를 통해 중요한 사실을 볼 수 있다. AI 코딩 시스템 간의 핵심 차별화 요소는 구문적으로 올바른 코드를 생성하는 능력이 아니라 주도성, 즉 최소한의 지침만으로 개발 목표를 이해하고 그 목표를 달성하기 위해 나아가는 능력이라는 것이다.

테스트 결과에 따르면 주도성 스펙트럼에는 다음과 같은 모델이 있다.

- 코드 생성기. 구체적인 프롬프트에 대한 응답으로 구문적으로 유효한 코드를 생성하지만 지속성과 맥락에 대한 이해는 없다.
- 대응형 어시스턴트. 작동하는 코드를 생성하지만 각 개발 단계에서 명확한 지침을 필요로 하며, 전체적인 목표보다는 당면한 지침에 중점을 둔다.
- 협력적 에이전트. 지침 따르기와 주도성 사이에서 적절히 균형을 유지하며, 주기적인 지침을 받으며 반자율적으로 작업할 수 있지만 때때로 방향 수정이 필요할 수 있다.
- 개발 파트너. 개발 목표를 내면화하고 이를 달성하기 위해 지속적으로 노력하며, 명확한 지침 없이도 장애물을 능동적으로 식별하고 해결한다.

이 스펙트럼은 AI 코딩 시스템을 평가하는 방식에 있어 근본적인 변화를 의미한다. 즉, 단순한 코드 품질 지표를 넘어 실제 개발 환경에서 자율적으로 문제를 해결하는 능력을 평가하는 방향으로 재편되고 있다.

개발 관행에 미치는 영향

주도성을 갖춘 AI 시스템의 등장은 개발 워크플로우에 큰 영향을 미친다.

세세한 지시에서 개발 목표로

지금까지는 효과적인 협업의 의미가 단계별로 세부적인 지침을 제공하는 것이었다면 에이전틱 AI 시스템에서는 더 높은 수준의 개발 목표와 맥락을 제공하는 것으로 바뀐다. 필자가 오퍼스 4에 제공한 지침은 다음과 같다.

“분석과 요약을 위해 오픈AI로 옴니포커스 작업을 전송하는 플러그인을 만들어. 오류를 정상적으로 처리하고 우수한 사용자 경험을 제공해야 해.”

이 정도의 개략적인 지침만으로도 완전한 솔루션을 구축하기에 충분했다. 이전의 코드 생성 시스템으로는 불가능한 일이다.

토큰 계산을 넘어 : 새로운 경제적 계산

클로드 4 모델의 주도성 역량은 비용 편익 분석에 새로운 차원을 더한다. 오퍼스 4는 토큰당 비용이 더 높지만(입력/출력에 15달러/75달러, 소넷 4는 3달러/15달러) 솔루션을 향해 자율적으로 작업할 수 있어 필요한 상호작용의 수가 줄어든다.

오퍼스 4에서 3~4회의 상호작용으로 충분했던 작업이 소넷 3.7에서는 10회 이상 필요했다. 즉, 토큰당 더 높은 비용을 효율성으로 상쇄한다. 더 중요한 것은 개발자의 시간과 인지 부하를 줄여준다는 점이다. 이는 모델 선택 시 거의 반영되지 않지만 실제로는 큰 영향을 미치는 비용이다.

AI 주도성에 맞춰 개발 워크플로우 조정

AI 시스템이 코드 생성을 넘어 진정한 주도성을 갖춰 나가면서 개발 워크플로우도 진화할 것이다. 필자의 경험을 바탕으로 추측하자면 미래에는 AI 시스템이 코드 작성뿐만 아니라 구현 계획, 오류 진단, 품질 보증까지 맡아 처리하게 되고, 덕분에 개발자는 다음과 같은 측면에 집중할 수 있게 된다.

- 아키텍처와 시스템 설계
- 목표와 품질 기준 정립
- AI가 생성한 솔루션에 대한 비판적 평가
- 소프트웨어 개발의 인적, 윤리적 측면

AI가 개발자를 대체한다는 의미가 아니다. 그보다는 개발자의 역할을 일상적인 코드 작성에서 더 높은 수준의 감독과 관리로 격상시킨다고 보는 것이 맞다.

미래를 향한 길 : 현재의 기능을 넘어

AI 주도성이 빠르게 발전하면서 다음과 같은 여러가지 새로운 추세가 나타나고 있다.

- 주도성에 특화된 개발 시스템. 미래의 AI 시스템은 일반 지능보다는 개발 주도성에 특화돼 다양한 개발 영역별로 전문화된 파트너를 제공할 수 있다.
- 새로운 협업 인터페이스. 현재의 채팅 인터페이스는 개발 협업 측면에서는 최적이 아니다. AI 시스템이 코드베이스를 탐색하고 테스트를 실행하고 일관성 있는 솔루션을 제안할 수 있도록 더 큰 자율성을 제공하는 툴이 등장하게 될 것이다.
- 진화하는 평가 프레임워크. 주도성이 주요 차별화 요소가 되면서 코드 생성 벤치마크를 넘어 개발 목표를 이해하고 달성하는 역량에 초점을 맞춘 새로운 AI 시스템 평가 방식이 필요할 것이다.
- 조직 적응력. 개발 팀은 에이전틱 AI 기능을 통합하는 방법을 재고해야 하며, 이를 통해 AI의 참여를 감독하고 평가하는 데 중점을 둔 새로운 역할이 만들어질 수 있다.

주도성은 새로운 개척지

새로운 LLM 모델은 더 나은 코드를 생성하기 때문이 아니라 인간과 AI의 개발 관계를 혁신하는 주도성을 보여준다는 측면에서 AI 코딩 시스템 발전의 중요한 이정표다.

필자가 테스트 과정에서 얻은 가장 중요한 인사이트는 “올바른 코드를 작성할 수 있는가?”에서 “우리가 만들고자 하는 것을 이해할 수 있는가?”로 개척지가 바뀌었다는 것이다. 새로운 모델은 AI 시스템이 단순히 정교한 코드 생성기가 아닌 진정한 개발 파트너로 기능하는 시대로 접어들고 있음을 보여준다.

dl-itworldkorea@foundryco.com

이 기사의 카테고리는 언론사의 분류를 따릅니다.