마이크로소프트가 마그네틱-원 멀티 AI 에이전트 시스템을 출시했다. 이전에는 사람의 개입이 필요했던 복잡한 작업을 자동화하도록 고안된 도구다. 최근 몇 달 동안 여러 에이전틱 AI 제품이 등장했던 가운데, 마이크로소프트도 이 분야의 경쟁에 합류한 셈이다. 마그네틱-원은 마이크로소프트의 오토젠 오픈소스 에이전트 개발 프레임워크를 기반으로 한다.
회사는 이번 범용 멀티 에이전트 시스템이 일단은 개방형 웹 및 파일 기반 작업에 사용될 것으로 예상하고 있다. 그러나 향후에는 음식 자동 주문이나 제품 배송 예약과 같이 추론이 필요한 복잡한 작업을 처리할 수 있는 멀티 에이전트 시스템도 구축한다는 목표다.
이번 새로운 멀티 에이전트 시스템은 마이크로소프트의 기존 AI 제품에 대한 마크 베니오프의 비판에 대한 응수이기도 하다. 세일즈포스의 베니오프 CEO는 과거 마이크로소프트 오피스에 있었던 짜증나는 애니메이션 클립을 언급하며 “코파일럿은 클리피 2.0과 비슷하다”라고 말한 바 있다.
마그네틱-원은 멀티 에이전트 아키텍처를 지닌다. 하나의 오케스트레이터 에이전트가 네 개의 다른 에이전트에게 과제를 해결하도록 지시하는 구조다.
마이크로소프트는 “오케스트레이터가 웹 브라우저 작동, 로컬 파일 탐색, 파이썬 코드 작성 및 실행과 같은 작업을 수행하도록 전문 에이전트에게 지시하는 한편, 진행 상황을 추적하고 오류 복구를 위한 계획을 세운다”라고 설명했다.
마이크로소프트의 설명대로라면 오케스트레이터 에이전트는 에이전트포스에서 에이전트 루프를 제어하는 세일즈포스의 아틀라스 추론 엔진(Atlas reasoning engine)과 유사하다.
마그네틱-원 내부의 다른 네 가지 하위 에이전트로는 웹서퍼(WebSurfer), 파일서퍼(FileSurfer), 코더(Coder) 및 컴퓨터 터미널이 있다.
웹서퍼는 크롬 기반 웹 브라우저에서 작업을 관리할 수 있는 LLM 기반 에이전트다. 파일서퍼는 마크다운 기반 파일 미리보기 애플리케이션을 통제해 다양한 유형의 로컬 파일을 읽을 수 있다. 코더는 코드 작성, 다른 에이전트로부터 정보 수집, 분석 및 새로운 아티팩트 생성을 담당한다. 한편 컴퓨터 터미널 에이전트는 멀티 에이전트 시스템에 콘솔 셸에 대한 액세스 권한을 부여하며, 해당 콘솔 셸에서 코더의 프로그램이 실행되거나 새로운 프로그래밍 라이브러리가 설치된다.
아키텍처와 하위 에이전트를 고려할 때 마그네틱-원은 컴퓨터에서 각종 업무를 수행할 수 있을 것으로 관측된다. 앤스로픽이 베타 버전으로 공개한 ‘컴퓨터 사용 기능’(computer use capability)과 유사하다고 할 수 있다. 단 마그네틱-원의 컴퓨터 접근은 웹 브라우징과 파일 보기에 국한된다는 제한을 가진다.
현 단계의 마그네틱-원 시스템은 모든 에이전트의 기본 LLM으로 GPT-4o를 사용한다. 그러나 마이크로소프트는 오케스트레이터를 포함한 다양한 에이전트에 어떤 다른 LLM이 사용될 수 있다고 전했다. 즉 특정 작업에 특화된 소규모 언어 모델과의 조합이 가능하다는 설명이다. 하지만 기업이나 개발자가 멀티 에이전트 시스템을 최대한 활용하려면 강력한 추론 기능을 갖춘 LLM을 사용해야 할 것이라고 회사는 덧붙였다.
한편 마이크로소프트는 또한 에이전트 평가 도구인 오토젠벤치(AutoGenBench)를 출시했다. 개발자가 벤치마크를 통해 마그네틱-원 구현을 테스트할 수 있도록 하는 도구다.
이에 더해 마이크로소프트는 마그네틱-원 사용자들이 주의할 부분이 있다고 당부했다. 에이전트 보안과 격리를 위해 컨테이너에서 실행할 필요가 있으며, 로그를 모니터링해 에이전트의 위험한 동작을 감지하고 완화하라는 주문이다.
또 에이전트의 인터넷 액세스를 제한해야 하며, 에이전트를 감독할 사람이 항상 상주해야 한다. 아울러 개발자는 에이전트에게 민감한 데이터나 손상될 가능성이 있는 리소스에 접근 권한을 부여하지 말라고 마이크로소프트는 경고했다.
dl-ciokorea@foundryco.com