요약
대규모 행동 모델(LAM)은 LLM과 결합하여 진정한 의미의 AI Agent
LAM은 인간의 의도를 이해하고, 주어진 환경이나 시스템 내에서 행동으로 변환하도록 설계된 인공지능 모델
LAM은 Robotics와의 연관성이 매우 높아 로봇의 발전과 함께할 것으로 예상
행동을 학습하고 실행에 옮기기 위해서는 언어뿐만 아니라 다양한 모달리티가 관여
음성과 터치 기반의 상호작용 방식에서 새로운 방식의 상호작용 방식으로 패러다임 전환이 이루어질 것으로 예상
Large Action Models (LAMs) 이란? (w/ RPA)
대규모 언어 모델이라고 불리는 Large Language Model (LLM)은 자연어 처리 기술로, 대규모의 텍스트 데이터를 사용하여 학습된 인공지능 모델입니다. 이는 문장과 그림, 비디오 등을 생성하는 데에 특화되어 있다면, LAM은 대규모 행동 모델로 언어적 유창성과 독립적 작업 수행 능력을 결합해 단순히 무언가를 생성하는 데 그치지 않고 직접 작업을 수행하며 인간을 대신해줄 진정한 의미의 인공지능 에이전트(AI Agent)입니다.
LAM은 (1) 인간의 의도를 이해하고 (2) 주어진 환경이나 시스템 내에서 행동으로 변환되도록 설계된 인공지능 모델입니다. 주로 언어 처리 및 생성에 초점을 맞춘 LLM과 달리 인간의 입력과 운영 환경의 맥락에 대한 이해를 기반으로 구체적인 행동을 취하도록 구축되어있습니다.
우리는 여기서 유사한 개념을 떠올릴 수 있습니다. 바로 "Robotic Process Automation (RPA)"입니다. RPA는 반복적이고 단순한 작업을 자동화하여 효율성을 극대화할 수 있는 소프트웨어 기술로 "디지털 로봇" 혹은 "봇"이라고도 불립니다. RPA는 API와 사용자 인터페이스(UI) 상호 작용을 결합하여 반복적인 작업을 통합하고 수행합니다. 가장 간단한 예는 수강신청 매크로라고 생각해볼 수 있습니다. 이러한 RPA는 데이터 입력, 문서 처리, 복잡한 양식과 계약서 검증 등과 같은 단일 작업을 잘 수행할 수 있지만, 복잡한 워크플로우를 처리하는 데에는 어려움을 겪습니다. 이는 데이터 저장, 정렬 및 조작을 위해 인간이 만든 규칙을 적용하는 '규칙 기반 자동화'를 수행하도록 설계됐기 때문입니다. 이런 규칙 기반 자동화의 본질적인 문제 중 하나는 유연성이 부족하여 기술 또는 형식이 변경되면 업무를 처리할 수 없습니다. 이를 보완할 수 있는 것이 바로 LAM이라 할 수 있습니다. 대규모 행동 모델을 AI Agent에 연결하면 전통적인 RPA 도구보다 한 단계 발전한 Agentic Process Automation (APA)가 가능해집니다.
AI Agent가 행동하고 결정을 내리는 더 광범위한 개체인 반면, LAM은 Agent가 복잡한 작업을 이해하고 실행하는 데 도움이 되는 정교한 세부 구성 요소입니다. 즉 AI Agent가 사람이라면 LAM은 효율적으로 계획하고 행동하는 뇌의 일부분이 될 것입니다.
Just as an aside, the overall definition and notion of LAMs is still being bandied around
여전히 LAM, LBM에 대한 정의와 개념은 논의중에 있으며 합의되지 않았습니다
LAM의 주요 특징
LAM은 고급 데이터 처리와 효율적인 의사 결정을 통해 복잡한 작업을 자동화할 수 있으며, 확장성과 유연성이 뛰어나 다양한 영역에 적용할 수 있습니다. 확장성과 유연성이 뛰어난 이유는 아래와 같은 주요 특징을 지니고 있기 때문입니다.
- Action-oriented: 텍스트를 생성하거나 정보를 제공하는 것이 아니라 작업을 수행하는 것을 주요 기능으로 합니다. 이러한 작업 중심 설계를 통해 기존 언어 모델에서는 할 수 없는 방식으로 환경과 상호 작용하고 조작할 수 있습니다.
- Conextual understanding: 상황의 맥락을 이해하는 능력을 갖추고 있습니다. 이는 주어진 상황에서 관련성이 있고 의미 있는 적절한 조치를 취할 수 있도록 합니다.
- Goal-driven: 특정 목적이나 목표를 전제로 운영됩니다. 작업 완료, 문제 해결 혹은 프로세스 최적화 여부에 관계없이 LAM은 정의된 결과물을 향해 작동하도록 설계되었습니다.
- Real-time adjustments: 새로운 정보에 신속하게 대응하도록 설계되었습니다. 갑작스러운 환경의 변화를 감지하여 이에 따라 의사결정을 조정하게 되어 잘못된 의사결정을 내릴 위험을 완화할 수 있습니다.
LAM의 응용 영역
LAM의 주요 활용 용도는 앞서 이야기한 바와 같이 작업 자동화입니다. 구체적인 예시를 살펴보겠습니다.
- Personal Assistants: LAM은 단순한 음성 명령을 넘어서는 차세대 개인 비서 역할을 수행하게 될 것입니다. "휴가 예약", "식당 예약" 등의 요청을 이해할 수 있을 뿐만 아니라 옵션을 조사하고, 가격을 비교하고, 예약을 하고, 심지어 개인의 일정을 조정할 수 있는 AI agent가 될 것입니다. 중요한 것은 사용자의 선호도와 누적된 과거 행동 데이터에 기반합니다.
- Robotics: 로봇공학에서 LAM은 기계가 복잡한 인간의 지시를 이해하고 이에 대응할 수 있도록 설계할 수 있습니다. 높은 수준의 복잡한 지시를 내리고 작업을 완료하는 데 필요한 구체적인 행동을 파악할 수 있는 제조업의 생산성을 향상시키는 데 활용할 수 있습니다. 가정 내에서도 휴머노이드 로봇에게 "정수기에서 미지근한 물 한 컵 받아와"라는 요청을 최소한의 인간의 개입으로 실행에 옮길 수 있습니다.
- Workflow automation: 비즈니스 환경에서 LAM은 의사 결정과 적응력이 필요한 복잡한 워크플로우를 자동화할 수 있습니다. 앞서 살펴본 바와 같이 Agentic Process Automation을 통해 비용을 절감하고 완전히 새로운 고객 경험을 제공할 수 있습니다. 예를 들어, 고객 서비스 영역에서 LAM은 복잡한 고객 문의를 처리하고, 관련 정보에 접근하여 문제를 해결하는 방법에 대한 계획을 수립하고, 환불 처리나 기술자 방문 일정을 예약하는 것과 같은 프로세스를 실행할 수 있습니다. 우리가 사용하고 있는 LLM 기반의 챗봇에서 업그레이드 된 형태가 될 것입니다.
응용 영역 중에 눈에 띄는 것은 바로 Robotics입니다. 말 그대로 LAM은 행동에 대한 모델이기 때문에 가동성(mobility)을 가질 수 있습니다. 이러한 관점에서 Large Behavior Model (LBM)을 주목 받게 만든 AI 연구 프로젝트가 바로 Toyota Research Institute (TRI)가 수행한 '로봇에게 새로운 조작 방법을 교육시키기'입니다. 로봇에게 새로운 행동을 가르치는 이전의 기술은 느리고 일관성이 없으며 비효율적이었고, 제한된 환경에서 수행되는 간단하고 협소한 작업이었습니다. 로봇 공학자들과 개발자들은 정교한 코드를 작성하거나 동작을 세분화하여 프로그래밍하기 위해 수많은 시행 착오를 겪어야 했습니다. 생성형 AI가 등장한 이후, TRI는 단 한 줄의 새로운 코드도 작성하지 않고 새로운 데이터를 제공하는 것만으로 60 개 이상의 어렵고 능숙한 기술을 학습시켰습니다. 구체적으로, 모방 학습(Imitation Learning)을 위한 (1) 목표에 대한 언어 설명과 결합된 (2) 교사의 햅틱 시연을 제공합니다. 수십 개의 시연을 통해 새로운 동작을 자율적으로 구현할 수 있었습니다. 이러한 접근 방식은 일관되고 반복 가능하며 성능이 뛰어난 결과를 제공할 뿐만 아니라 매우 빠른 장점을 지닙니다. 로봇에게 새로운 동작을 학습시키는 TRI의 접근은 완전히 새로운 것일까요?
여러분들은 운동을 배울 때, 악기를 배울 때, 요리를 배울 때
선생님이 먼저 수행하는 모습을 관찰해 본 적이 있을 것입니다.
생각해보면, 너무 자연스러운 학습의 과정입니다. 로봇은 비전 기술을 통해 주변 환경을 파악하고, 상황에 맞는 시연자의 행동을 보고 학습합니다. 이 때 중요한 것은 바로 목표에 대한 언어적 설명입니다. 원하는 결과물이 도출될 수 있도록 어떤 절차의 행동을 연속적으로 수행해야할지 계획해야하기 때문입니다. 행동 학습에 필요한 데이터의 생성이 LLM을 비롯한 생성형 AI의 등장으로 가속화됨에 따라 이러한 접근을 적극 활용해온 빅테크들은 산업 현장에 AI 로봇을 투입하기 시작했습니다.
- 자동차 업체 BMW 그룹은 인공지능 추론 능력이 탑재된 휴머노이드 로봇 Figure 02를 투입하여 약 2주간의 시범 운영 결과 "Figure 02는 밀리미터 단위의 작업도 잘 해내 사람보다 정확도는 7배 높고, 속도는 4배 빠르다"고 밝혔습니다.
- 세계 최대 전자 상거래 플랫폼 아마존은 2족 보행 휴머노이드 로봇 '디지트'를 물류 현장에 시범 투입하여 물류 박스를 들어 옮기고, 창고 내에서 빈 컨테이너를 정리하는 작업을 수행하고 있습니다.
- 전기차 업체 테슬라는 지난해 6월 옵티머스가 기가팩토리에 시범 투입돼 자율적인 작업을 수행하고 있다고 밝혔으며 2025년 올 해 1000대 이상의 옵티머스를 운영할 계획이라고 합니다.
LAM과 HCI
LAM은 휴먼 컴퓨터 인터페이스(HCI, Human Computer Interface) 영역을 크게 뒤바꿀 것으로 보입니다. 지금까지 컴퓨터와의 상호작용은 그래픽 유저 인터페이스(GUI, Graphical User Interface)를 통해 이뤄져 왔습니다. 컴퓨터는 위치적으로 고정된 상태였다면 이제는 컴퓨터도 움직일 수 있으며, 과거에는 사용자와 컴퓨터 간 일대일 소통이 이루어진 반면 앞으로는 컴퓨터(인공지능)들 간에도 소통이 가능해질 것입니다. 즉 이전에는 상호작용을 위해 사람만 직접 움직여야 했지만, 앞으로는 다양한 상호작용의 형태가 등장할 수 있으며 그 방식도 음성, 제스쳐, 터치 등 다양한 모달리티(modality)를 가질 가능성이 높습니다. UI/UX 측면에서는 이러한 AI Agent의 변화가 어떤 기회를 창출할 수 있을지 지켜보는 것도 흥미롭겠습니다. "휴머노이드 로봇과 가상 비서가 사람과 함께 동일한 공간에서 일하면서, 우리의 감정을 이해하고 개개인의 고유한 상호작용 방식에 적응하는 미래"를 상상해 볼 수 있겠습니다.
[참고자료]
1. https://www.leewayhertz.com/actionable-ai-large-action-models/
Actionable AI: The rise of Large Action Models
Discover how actionable AI empowers systems to understand human inputs and take proactive actions based on context and learned behaviors.
www.leewayhertz.com
2. https://arxiv.org/pdf/2409.03215
3. https://www.datacamp.com/blog/large-action-models
4. https://www.superannotate.com/blog/large-action-models
Large action models (LAMs): The foundation of AI agents | SuperAnnotate
Explore large action models (LAMs), AI's next step toward automating tasks and enhancing agentic capabilities.
www.superannotate.com
Emergence of Large Action Models (LAMs) and Their Impact on AI Agents
While LLMs are great for understanding and producing unstructured content, LAMs are designed to bridge the gap by turning language into…
cobusgreyling.medium.com
Difference between LLMs vs LAMs | SuperAGI님이 토픽에 대해 올림 | LinkedIn
Large Language Models (LLMs) vs Large Agentic Models (LAMs) LLMs so far have demonstrated exceptional proficiency in formal linguistic competence, excelling…
www.linkedin.com
8. https://arxiv.org/pdf/2309.07864
Actionable AI: An Evolution from Large Language Models to Large Action Models
In today’s dynamic business landscape, the integration of artificial intelligence (AI) has become imperative for organizations striving to…
medium.com
10. https://www.gttkorea.com/news/articleView.html?idxno=6890
로봇, 대규모 언어 모델에서 ‘대규모 행동 모델’로
토요타 연구소(Toyota Research Institute, TRI)는 로봇에게 새롭고 능숙한 기술을 빠르고 자신 있게 가르칠 수 있는 확산 정책을 기반으로 한 생성AI 접근 방식을 발표했다. 이는 로봇 활용도를 크게 향
www.gttkorea.com
LAM Thinks, LLM Speaks, and AI Agents Act: Forging strategy to harness the mighty trio of…
Hawaii has always been on my mind to visit as one of my dream travel destinations. Last weekend, I got into the travel booking process to…
ai.gopubby.com
'Business Insights > Industry·Market·Technology' 카테고리의 다른 글
온디바이스 AI (4) | 2024.12.02 |
---|---|
The Rise of AI Agents: AI 에이전트가 온다 (6) | 2024.11.25 |
ATL 1.0: 인공지능 기술 수준 정의 (3) | 2024.11.17 |
The AI Revolution (5) | 2024.11.17 |