Part II: 로봇 조작 기술의 최전선

Chapter 4: GR00T와 휴머노이드 VLA — System 2가 보고 System 1이 움직인다

집필일: 2026-06-08 최종수정일: 2026-06-08

GR00T는 NVIDIA가 휴머노이드 로봇을 위한 foundation model 계열로 제시한 핵심 제품이다. 2025년 GTC의 GR00T N1은 dual-system architecture를 전면에 내세웠다. System 2는 VLM 기반으로 장면과 지시를 해석하고, System 1은 그 계획을 연속적인 로봇 움직임으로 변환한다 [1]. 이 구조는 S3의 결론과 맞닿아 있다. 로봇에는 느린 계획과 빠른 제어가 모두 필요하며, 하나의 LLM이 모든 주파수의 제어를 담당할 수 없다.

Figure 4.1: pi0/VLA 계열에서 언어-비전-행동 모델이 로봇 행동을 생성하는 구조. source: S3 reused figure
Figure 4.1: pi0/VLA 계열에서 언어-비전-행동 모델이 로봇 행동을 생성하는 구조. source: S3 reused figure

4.1 제조 수작업에서 GR00T를 읽는 법

GR00T N1 발표는 material handling, packaging, inspection 같은 제조 use case를 명시했다 [1]. 하지만 이 말은 "휴머노이드가 곧 모든 포장 라인에 들어간다"는 뜻이 아니다. 더 보수적으로는 다음 세 가지 의미가 있다.

첫째, 작업 지시 인터페이스가 자연어와 시각으로 올라간다. 둘째, 저수준 motion policy는 human demonstration과 synthetic trajectory를 통해 task-specific하게 post-training된다. 셋째, 휴머노이드 플랫폼은 범용 연구/데모 플랫폼이고, 실제 제조 초기 ROI는 고정식 양팔 셀이나 collaborative robot에서 먼저 나올 가능성이 높다.

4.2 GR00T N1.7과 reference humanoid

2026년 3월 GTC에서 NVIDIA는 GR00T N1.7 early access와 commercial licensing을 발표했고, dexterous control을 포함한 generalized robot skill을 강조했다 [3]. 2026년 6월 GTC Taipei에서는 Isaac GR00T Reference Humanoid Robot을 발표했다. 이 reference design은 Unitree H2 Plus, Sharpa tactile five-finger hands, Jetson AGX Thor T5000, Isaac GR00T software stack을 결합하며, 2026년 말 Unitree를 통해 제공될 예정이라고 밝혔다 [3].

Figure 4.2: VLA action model의 high-level reasoning과 low-level continuous control 분리. source: S3 reused figure
Figure 4.2: VLA action model의 high-level reasoning과 low-level continuous control 분리. source: S3 reused figure

제조사가 여기서 봐야 할 것은 "휴머노이드 구매"보다 reference architecture다. tactile hands, wrist cameras, onboard edge compute, simulation workflow가 통합된 표준 플랫폼이 나오면 연구실과 제조사 간 결과 비교가 쉬워진다.

4.3 적용 우선순위

GR00T 계열은 다음 작업에 먼저 맞는다.

  • 고정된 용기/상자/트레이의 pick-transfer-place
  • 양손으로 잡고 위치를 맞추는 포장/삽입
  • 카메라와 손목 카메라가 필요한 검사-조작 루프
  • 사람 demonstration으로 빠르게 정의할 수 있는 반복 작업

반대로 점성 내용물 직접 취급, 비정형 천/필름, 엄격한 위생/GMP 경계 안의 접촉 작업은 별도 검증이 필요하다. VLA의 일반성은 중요하지만, 제조에서는 일반성보다 반복성과 실패 검출이 먼저다.

참고문헌

  1. NVIDIA (2025). NVIDIA Announces Isaac GR00T N1 and Simulation Frameworks. NVIDIA Newsroom.
  2. NVIDIA (2026). NVIDIA and Global Robotics Leaders Take Physical AI to the Real World. NVIDIA Investor Relations.
  3. NVIDIA (2026). NVIDIA Announces Isaac GR00T Reference Humanoid Robot. NVIDIA Investor Relations.
  4. Anthony Brohan et al. (2023). RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control. arXiv.
  5. Moo Jin Kim et al. (2024). OpenVLA: An Open-Source Vision-Language-Action Model. arXiv.