멀티 에이전트 오케스트레이션은 왜 잘 안 되는가? (shalomeir’s inside mode, 2026.4.7)

핵심 내용

멀티 에이전트 시스템(여러 AI 에이전트가 팀처럼 협업하는 구조)은 이론적으로 매력적이지만, 실제로는 비용 폭증 + 생산성 저하를 일으키는 경우가 많다. 저자는 Gastown, Paperclip 등 실제 시스템을 직접 수천 달러 규모로 사용해 본 경험을 바탕으로 실패 원인을 분석하고, “무조건 모든 걸 에이전트에게 맡기지 말고, 위임할 만한 영역을 정확히 골라야 한다”고 강조한다.

주요 실패 원인 (UC Berkeley MAST 연구 기반)

Context Collapse (맥락 붕괴) – 41.8%
에이전트가 전체 목표·배경을 못 보고 “지금 주어진 지시”만 보면서 작업한다. → 초기 작은 실수가 뒤로 갈수록 17배까지 증폭.
예: “사용자 인증 모듈 만들어”라고만 하면 MVP 수준인지, 보안 감사 수준인지 구분 못 함.
Ghost Delegation (유령 위임) – 36.9%
작업이 인수인계 도중에 끊겨서 아무도 책임지지 않는 상태.
예: A 에이전트가 “DONE” 처리했는데 트리거가 실패하거나, subtask가 parent task 종료 후 방치됨.
Verification Error (검증 오류) – 21.3%
LLM이 “그럴듯한 답”을 스스로 “완료”로 착각(환각).
Executor-Validator-Critic 구조로 막아보려 해도 토큰 비용이 2배 이상 증가하고, 정성적 검증(브랜드 톤 등)에서는 여전히 약함.

현재 시스템들의 공통 문제

Gastown, Paperclip, ClawTeam 등 메타포(도시·회사 구조)를 써도 **목표 drift(목표 변질)**이 심함.
에이전트 4개 이상 되면 조율 비용이 이득을 압도.
인간 메타포(리더-워커, 티켓 시스템)가 AI의 “무자율성” 때문에 오히려 비효율적.

저자가 제안하는 실전적 해결책

위임 5가지 판단 기준 (각 1~5점, 총점으로 결정)

오류 비용 (낮을수록 에이전트 OK)
검증 용이성 (빠르게 확인 가능하면 OK)
암묵지 의존도 (명시적으로 설명 가능한 작업이면 OK)
컨텍스트 범위 (한 세션으로 충분하면 OK)
피드백 루프 길이 (짧을수록 OK)

5~10점: 에이전트 주도
11~18점: 인간+에이전트 하이브리드
19~25점: 인간 주도

추천 전략

모든 영역을 한 번에 자율화하려 하지 말고, **오류 비용 낮고 검증 쉬운 영역(리서치, 테스트 데이터 생성, SEO 초안 등)**부터 점진적으로 위임.
Orchestrator-Worker 패턴 + Blackboard(공유 환경) 활용.
기존 도구(Git, 이슈 트래커)와 잘 연동.

결론적으로 저자는 “L5 완전 자율주행 수준을 꿈꾸지 말고, L2~L3 수준에서 인간 중심 하이브리드로 가는 게 현실적”이라고 정리한다. 각자 도메인에서 “위임 가치가 명확히 증명되는 한 걸음”부터 시작하라는 실용적인 조언으로 마무리된다.