멀티 에이전트 오케스트레이션은 왜 잘 안 되는가? (shalomeir’s inside mode, 2026.4.7)
[원문] 멀티 에이전트 오케스트레이션은 왜 잘 안 되는가?
핵심 내용
멀티 에이전트 시스템(여러 AI 에이전트가 팀처럼 협업하는 구조)은 이론적으로 매력적이지만, 실제로는 비용 폭증 + 생산성 저하를 일으키는 경우가 많다. 저자는 Gastown, Paperclip 등 실제 시스템을 직접 수천 달러 규모로 사용해 본 경험을 바탕으로 실패 원인을 분석하고, “무조건 모든 걸 에이전트에게 맡기지 말고, 위임할 만한 영역을 정확히 골라야 한다”고 강조한다.
주요 실패 원인 (UC Berkeley MAST 연구 기반)
-
Context Collapse (맥락 붕괴) – 41.8%
에이전트가 전체 목표·배경을 못 보고 “지금 주어진 지시”만 보면서 작업한다. → 초기 작은 실수가 뒤로 갈수록 17배까지 증폭.
예: “사용자 인증 모듈 만들어”라고만 하면 MVP 수준인지, 보안 감사 수준인지 구분 못 함. -
Ghost Delegation (유령 위임) – 36.9%
작업이 인수인계 도중에 끊겨서 아무도 책임지지 않는 상태.
예: A 에이전트가 “DONE” 처리했는데 트리거가 실패하거나, subtask가 parent task 종료 후 방치됨. -
Verification Error (검증 오류) – 21.3%
LLM이 “그럴듯한 답”을 스스로 “완료”로 착각(환각).
Executor-Validator-Critic 구조로 막아보려 해도 토큰 비용이 2배 이상 증가하고, 정성적 검증(브랜드 톤 등)에서는 여전히 약함.
현재 시스템들의 공통 문제
- Gastown, Paperclip, ClawTeam 등 메타포(도시·회사 구조)를 써도 **목표 drift(목표 변질)**이 심함.
- 에이전트 4개 이상 되면 조율 비용이 이득을 압도.
- 인간 메타포(리더-워커, 티켓 시스템)가 AI의 “무자율성” 때문에 오히려 비효율적.
저자가 제안하는 실전적 해결책
위임 5가지 판단 기준 (각 1~5점, 총점으로 결정)
- 오류 비용 (낮을수록 에이전트 OK)
- 검증 용이성 (빠르게 확인 가능하면 OK)
- 암묵지 의존도 (명시적으로 설명 가능한 작업이면 OK)
- 컨텍스트 범위 (한 세션으로 충분하면 OK)
- 피드백 루프 길이 (짧을수록 OK)
- 5~10점: 에이전트 주도
- 11~18점: 인간+에이전트 하이브리드
- 19~25점: 인간 주도
추천 전략
- 모든 영역을 한 번에 자율화하려 하지 말고, **오류 비용 낮고 검증 쉬운 영역(리서치, 테스트 데이터 생성, SEO 초안 등)**부터 점진적으로 위임.
- Orchestrator-Worker 패턴 + Blackboard(공유 환경) 활용.
- 기존 도구(Git, 이슈 트래커)와 잘 연동.
결론적으로 저자는 “L5 완전 자율주행 수준을 꿈꾸지 말고, L2~L3 수준에서 인간 중심 하이브리드로 가는 게 현실적”이라고 정리한다. 각자 도메인에서 “위임 가치가 명확히 증명되는 한 걸음”부터 시작하라는 실용적인 조언으로 마무리된다.