Part II: 로봇 조작 기술의 최전선

Chapter 4: GR00T와 휴머노이드 VLA — System 2가 보고 System 1이 움직인다

집필일: 2026-06-08 최종수정일: 2026-06-24

개요

GR00T는 휴머노이드 로봇을 위한 단일 제품명이 아니라, 언어·시각·행동을 하나의 제조 skill executor로 묶으려는 NVIDIA의 방향을 보여준다. 2025년 GR00T N1 이후 GEAR의 최신 논문 흐름은 N1.7식 모델 카드, SOMA/BONES/GENMO/Kimodo/MotionBricks/GRAIL 같은 human-to-humanoid motion supply chain, SONIC의 whole-body controller scaling, VIRAL과 Doorman의 pixel-to-action sim-to-real, 그리고 PLD의 self-improving VLA로 넓어졌다 ^[1]; ^[27]; ^[21]; ^[22]; ^[23]; ^[24]; ^[25]; ^[26]; ^[17]; ^[18]; ^[19]; ^[20].

핵심은 휴머노이드 데모가 아니다. 제조사는 모델이 자연어 지시를 이해하는지보다, 해당 지시가 fixture, 부품 공차, 품질 기준, 안전 interlock, 작업자 승인 절차와 함께 반복 가능한 행동으로 내려오는지를 봐야 한다.

이 장을 읽고 나면... - GR00T식 dual-system 구조를 제조 skill executor 관점에서 설명할 수 있습니다. - human motion dataset, retargeting, controllable reference motion, whole-body control이 GR00T 아래에서 어떻게 연결되는지 구분할 수 있습니다. - OpenVLA, pi0, FAST, GR00T N1.7, PLD가 action 표현·후학습·배포 비용에서 어떻게 다른지 비교할 수 있습니다. - reference humanoid를 생산 증거가 아니라 표준화된 실험 플랫폼으로 읽을 수 있습니다. - 첫 파일럿 셀에서 어떤 데이터와 평가 harness를 소유해야 하는지 정리할 수 있습니다.

Figure 4.1: pi0/VLA 계열에서 언어-비전-행동 모델이 로봇 행동을 생성하는 구조. source: S3 reused figure

4.1 GR00T는 휴머노이드보다 실행 인터페이스다

GR00T N1의 중요한 설계는 고수준 추론과 저수준 행동 생성을 분리하는 dual-system 구조다. System 2는 장면, 언어 지시, 목표 상태를 해석하고, System 1은 짧은 시간 간격의 연속 action chunk를 생성한다 ^[1]. 제조 셀로 번역하면, System 2는 "왼쪽 트레이의 커넥터를 집어 fixture에 맞춰 넣고 삽입 상태를 검사하라"는 작업 의도를 읽고, System 1은 grasp, 접근, 접촉, 삽입, 이탈, 재시도 같은 구간 행동을 수행한다.

이 분리는 공장 운영과 잘 맞는다. 품질팀은 System 2가 금지 상태와 검사 기준을 이해하는지 검토할 수 있고, 로봇팀은 System 1이 cycle time, 접촉 안정성, collision margin을 만족하는지 따로 측정할 수 있다. 하나의 거대한 end-to-end 모델을 믿는 방식보다 승인과 rollback 경로를 만들기 쉽다.

다만 dual-system이라는 말이 생산 준비성을 보장하지는 않는다. GR00T N1.7 모델 카드는 Cosmos-Reason2 계열 인코더와 flow-matching action transformer를 연결하고, post-training을 통해 특정 robot/task로 맞출 수 있다고 설명한다 ^[27]. 이는 좋은 출발점이지만 factory-ready라는 뜻은 아니다. 공장에서는 SKU별 fixture, 조명, 부품 표면, 공차 누적, 작업자 개입 절차를 포함한 별도 평가가 필요하다.

2026년 NVIDIA 자료 묶음을 계층으로 읽으면 GR00T는 맨 위 모델이 아니라 여섯 층 flywheel의 실행 인터페이스다. SOMA, BONES-SEED, GENMO가 사람 motion을 표준화하고, Kimodo와 MotionBricks가 controllable reference motion을 만들며, SONIC/GEAR-SONIC이 이를 humanoid whole-body control로 내리고, GRAIL이 3D asset과 video prior로 task-level loco-manipulation demonstration을 합성한다 ^[21]; ^[22]; ^[23]; ^[24]; ^[25]; ^[26]. Cosmos, Isaac, Newton은 그 뒤에서 world/action data, simulation, physics validation을 묶는다.

층	모델이 맡는 일	제조사가 확인할 일
Motion interface	사람 motion 표준화, retargeting, reference motion 생성	작업자 동작이 로봇 action space와 안전 제약으로 번역되는가
System 2	장면 이해, 지시 해석, subgoal 생성	작업 표준서, 금지 상태, 품질 판정 기준과 일치하는가
System 1	연속 행동 chunk, 손·팔 제어	cycle time, 충돌 여유, 접촉 안정성, 회복 가능성
평가 harness	성공·실패 판정, 로그 수집	fixture 버전, 부품 lot, 조명, 작업자 승인 경로를 기록하는가
재학습 루프	실패 사례를 다음 policy에 반영	실패가 simulation, demonstration, QA 이미지로 되돌아가는가

4.2 OpenVLA, pi0, FAST, PLD를 함께 읽기

OpenVLA는 대규모 real-robot demonstration과 공개 fine-tuning recipe를 통해 VLA를 실험 가능한 오픈 스택으로 만들었다 ^[3]. Open X-Embodiment와 RT-X 흐름은 서로 다른 로봇과 task에서 모은 데이터를 한 모델 계열로 묶는 가능성을 보여준다 ^[8]. 제조사 입장에서는 "우리 셀 데이터가 어느 정도 있으면 기존 VLA를 현장 task에 맞게 조정할 수 있는가"라는 질문을 던지게 만든다.

pi0와 pi0.5는 더 넓은 open-world 조작과 long-horizon generalization을 지향한다 ^[9]. 이 계열은 공장보다는 일상 환경에 가까운 예시가 많지만, 제조 수작업이 가진 문제와 닮은 부분이 있다. 지시가 길고, 대상이 다양하며, 중간 실패 후 회복이 필요하다.

FAST는 action 표현 자체를 줄이고 매끄럽게 만드는 쪽의 병목을 다룬다 ^[5]. 제조 셀에서는 autoregressive decoding 비용과 고주파 손동작 표현이 실제 latency와 연결된다. 그래서 action tokenizer는 논문 세부사항처럼 보이지만, edge 배포와 tactile manipulation에서는 중요한 운영 변수다.

GEAR의 PLD는 또 다른 병목을 짚는다. 대규모 VLA를 매번 사람 데모로만 개선하면 실패 영역 데이터가 부족해진다. PLD는 residual RL actor로 실패 영역을 probe하고, deployment 분포에 가까운 rollout을 모아 다시 generalist VLA에 distill한다 ^[20]. 제조 언어로 바꾸면 "실패한 케이스를 다음 데모 요청으로만 보내는가, 아니면 안전한 residual 탐색으로 recovery 데이터를 만든 뒤 다시 표준 policy에 흡수하는가"의 차이다.

Figure 4.2: VLA action model의 high-level reasoning과 low-level continuous control 분리. source: S3 reused figure

4.3 Whole-body controller scaling: SONIC, GRAIL, VIRAL, Doorman

GR00T가 상위 policy interface라면 SONIC, GRAIL, VIRAL, Doorman은 휴머노이드 몸 전체를 실제로 움직이는 하위 실행층의 최신 방향이다. SONIC은 motion tracking을 scalable supervision task로 보고, 700시간 이상의 motion-capture data와 100M+ frame, 21k GPU-hour 규모의 학습으로 자연스러운 whole-body motion prior를 만든다 ^[17]. 제조 관점에서 중요한 점은 "휴머노이드가 걷는다"가 아니라 VLA, VR teleoperation, kinematic planner가 같은 token/control interface로 내려올 수 있다는 점이다.

GRAIL은 이 실행층을 task-level demonstration 생성으로 확장한다. 3D asset과 video foundation model prior를 사용해 pick-up, whole-body manipulation, sitting, terrain traversal 같은 loco-manipulation sequence를 2만 개 이상 합성하고, 생성 데이터만으로 학습한 policy를 Unitree G1에서 object pick-up 84%, stair-climbing 90%로 평가했다 ^[26]. 이것은 공장 적용 증거라기보다, metric asset과 video prior를 이용해 실제 로봇 trial 전에 humanoid task demonstration 후보를 만드는 방향을 보여준다.

VIRAL과 Doorman은 pixel-to-action sim-to-real 쪽의 기준을 끌어올렸다. VIRAL은 privileged RL teacher와 RGB student distillation, tiled rendering, visual domain randomization을 결합해 Unitree G1에서 연속 loco-manipulation을 zero-shot으로 수행한다 ^[18]. Doorman은 articulated object interaction을 door opening으로 좁히고, staged reset과 GRPO-style fine-tuning으로 순수 RGB 기반 humanoid policy를 만든다 ^[19]. 두 논문 모두 생산 배포 증거라기보다, Isaac/대규모 시뮬레이션이 "body policy를 공장 전에 얼마나 밀어붙일 수 있는가"를 보여주는 연구 증거로 읽어야 한다.

연구 흐름	강화하는 층	제조 해석
GR00T N1/N1.7	VLA execution interface	작업 지시를 행동 chunk로 내리는 기본 policy
SOMA / BONES / Kimodo / MotionBricks	motion interface and reference generation	사람 동작을 로봇 embodiment와 제어 가능한 reference로 바꾸는 공급망
SONIC	whole-body motion prior	보행, 자세, 양손 작업의 하위 motion 안정화
GRAIL	synthetic loco-manipulation demonstration	3D asset과 video prior로 task-level humanoid demo 후보 생성
VIRAL / Doorman	pixel-to-action sim-to-real	visual policy를 real robot에 옮기는 검증 패턴
PLD	self-improving VLA	실패 영역 데이터를 안전하게 다시 policy에 흡수하는 루프

4.4 Reference humanoid의 의미와 한계

Reference humanoid는 "이 형태가 곧 공장 표준"이라는 선언이 아니다. 더 정확히는 body, hand, onboard compute, Isaac workflow, policy interface를 묶어 연구자와 파트너가 같은 기준선에서 실험하도록 만드는 표준화 장치다. NVIDIA가 tactile hand와 Jetson-class edge compute를 reference design에 포함시키는 것은 제조 수작업의 병목이 보기만이 아니라 잡기, 느끼기, 접촉 후 회복에 있음을 보여준다.

2026년 공개된 Isaac GR00T Reference Humanoid 발표도 같은 맥락에서 읽어야 한다. NVIDIA는 Unitree H2 Plus 기반 body, Sharpa tactile five-finger hands, Jetson AGX Thor T5000, Isaac Teleop/Sim/Lab/ROS, GR00T software stack을 묶은 연구용 reference design을 제시했다 ^[27]. 이는 factory-ready humanoid가 아니라, 데이터 수집·시뮬레이션·policy 학습·edge 배포를 같은 기준선에서 실험하게 하는 integration artifact다.

하지만 제조 자동화는 휴머노이드 형상이 필요한 작업과 그렇지 않은 작업을 분리해야 한다. 사람이 쓰는 공간과 도구를 그대로 공유해야 하는 brownfield 셀에서는 humanoid 또는 양팔 mobile manipulator가 의미 있을 수 있다. 반대로 고정 fixture, 전용 end-effector, 간단한 part feeding으로 해결되는 셀에서는 휴머노이드가 비용과 안전 승인 부담을 키울 수 있다.

따라서 reference humanoid는 첫 구매 후보가 아니라 질문 생성 도구로 쓰는 편이 낫다. 우리 공정은 사람형 reach envelope가 필요한가. 양손 협응이 진짜 병목인가. 촉각 손이 필요한가, 아니면 compliant gripper와 force-torque sensor면 충분한가. 모델이 실패했을 때 사람 작업자가 어느 위치에서 안전하게 개입할 수 있는가.

4.5 제조 skill executor로 설계하기

제조 현장의 단위는 "로봇이 할 수 있는 멋진 행동"이 아니라 승인 가능한 skill이다. skill은 시작 조건, 입력 상태, 허용 도구, 행동 범위, 품질 판정, 실패 코드, recovery path를 가진다. GR00T나 VLA는 이 skill을 호출하고 조합하는 실행층으로 읽어야 한다.

예를 들어 "케이블 삽입" skill은 부품 인식만으로 끝나지 않는다. 커넥터 방향 확인, pre-insertion alignment, 접촉 감지, insertion force profile, latch 확인, 불량 시 재시도, 최종 이미지 검사까지 포함한다. System 2는 절차와 상태를 관리하고, System 1은 접촉이 많은 구간에서 부드러운 행동을 낸다. 품질 판정은 별도의 vision 또는 force/tactile check가 맡을 수 있다.

이 구조를 만들면 모델 교체가 쉬워진다. OpenVLA, GR00T, pi0, 사내 policy가 바뀌더라도 task schema와 evaluation harness는 유지된다. 제조사가 소유해야 하는 자산은 특정 checkpoint가 아니라, task data, simulation asset, failure taxonomy, acceptance test다.

4.6 Manufacturing Cell Checkpoint

첫 파일럿은 "휴머노이드가 가능한가"가 아니라 "이 셀의 skill을 버전 관리할 수 있는가"로 판단한다.

체크 항목	통과 기준
Task schema	시작 조건, 성공 조건, 실패 코드, human override가 문서화되어 있다
데이터 연결	human video, teleoperation trace, CAD/USD asset, QA image가 같은 task id로 묶인다
모델 비교	최소 두 개의 policy 또는 설정을 같은 평가 harness에서 비교한다
안전 승인	forbidden state, speed limit, collision zone, recovery stop이 별도로 검증된다
운영 로그	실패가 재현 가능한 simulation case 또는 추가 demonstration 요청으로 변환된다

4.7 다음에 배울 것

이 장은 GR00T와 VLA를 제조 skill executor로 해석했고, SONIC/VIRAL/Doorman/PLD를 통해 그 실행층이 whole-body control, sim-to-real, self-improvement로 확장되는 흐름을 보았다. 다음 장은 한 단계 위로 올라가 Jim Fan과 GEAR의 연구 지도를 본다. MineDojo, Voyager, VIMA, Eureka, DreamDojo, DreamZero, EgoScale은 모두 당장 공장에 넣을 로봇 제품이라기보다, open-ended agent를 어떻게 skill library, reward automation, world model, human-video data flywheel로 키우는지 보여주는 실험들이다.

참고문헌

Johan Bjorck et al. (2025). GR00T N1: An Open Foundation Model for Generalist Humanoid Robots. arXiv preprint. https://arxiv.org/abs/2503.14734
Ankur Handa et al. (2023). DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to Reality. ICRA 2023. https://arxiv.org/abs/2210.13702
Moo Jin Kim et al. (2024). OpenVLA: An Open-Source Vision-Language-Action Model. arXiv preprint. https://arxiv.org/abs/2406.09246
Kadalagere Sampath et al. (2023). Review on Human-like Robot Manipulation Using Dexterous Hands. Cognitive Computation and Systems (IET/Wiley). https://doi.org/10.1049/ccs2.12073
Karl Pertsch et al. (2025). FAST: Efficient Action Tokenization for Vision-Language-Action Models. arXiv preprint. https://arxiv.org/abs/2501.09747
Uikyum Kim et al. (2021). Integrated Linkage-Driven Dexterous Anthropomorphic Robotic Hand. Nature Communications. https://doi.org/10.1038/s41467-021-27261-0
Junjie Wen et al. (2024). TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation. arXiv preprint. https://arxiv.org/abs/2409.12514
Open X-Embodiment Collaboration (2024). Open X-Embodiment: Robotic Learning Datasets and RT-X Models. ICRA 2024. https://arxiv.org/abs/2310.08864
Physical Intelligence (2025). pi0.5: A Vision-Language-Action Model with Open-World Generalization. arXiv preprint. https://arxiv.org/abs/2504.16054
Karl Pertsch et al. (2024). Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models. arXiv preprint. https://arxiv.org/abs/2412.14058
Zhenyu Wei et al. (2024). D(R,O) Grasp: A Unified Representation of Robot and Object Interaction for Cross-Embodiment Dexterous Grasping. IEEE International Conference on Robotics and Automation (ICRA). https://arxiv.org/abs/2410.01702
Antonio Bicchi (2000). Hands for Dexterous Manipulation and Robust Grasping: A Difficult Road Toward Simplicity. IEEE Transactions on Robotics and Automation. https://doi.org/10.1109/70.897777
Alexander Khazatsky et al. (2024). DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset. RSS. https://arxiv.org/abs/2403.12945
Kenneth Shaw et al. (2023). LEAP Hand: Low-Cost, Efficient, and Anthropomorphic Hand for Robot Learning. Robotics: Science and Systems (RSS) 2023. https://arxiv.org/abs/2309.06440
NVIDIA (2026). GR00T-N1.7-3B Model Card. Hugging Face. https://huggingface.co/nvidia/GR00T-N1.7-3B
NVIDIA (2026). NVIDIA Announces NVIDIA Isaac GR00T Reference Humanoid Robot for Academic Research. NVIDIA Investor Relations. https://investor.nvidia.com/news/press-release-details/2026/NVIDIA-Announces-NVIDIA-Isaac-GR00T-Reference-Humanoid-Robot-for-Academic-Research/default.aspx
Zhengyi Luo et al. (2026). SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control. arXiv preprint. https://arxiv.org/abs/2511.07820
Tairan He et al. (2025). VIRAL: Visual Sim-to-Real at Scale for Humanoid Loco-Manipulation. arXiv preprint. https://arxiv.org/abs/2511.15200
Haoru Xue et al. (2025). Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer. arXiv preprint. https://arxiv.org/abs/2512.01061
Wenli Xiao et al. (2025). Self-Improving Vision-Language-Action Models with Data Generation via Residual RL. arXiv preprint. https://arxiv.org/abs/2511.00091
Jiefeng Li et al. (2025). GENMO: A GENeralist Model for Human MOtion. arXiv preprint. https://arxiv.org/abs/2505.01425
NVIDIA SOMA team (2026). SOMA: Unifying Parametric Human Body Models. arXiv preprint. https://arxiv.org/abs/2603.16858
BONES Studio (2026). BONES-SEED: Skeletal Everyday Embodiment Dataset. Hugging Face dataset. https://huggingface.co/datasets/bones-studio/seed
Davis Rempe et al. (2026). Kimodo: Scaling Controllable Human Motion Generation. arXiv preprint. https://arxiv.org/abs/2603.15546
Tingwu Wang et al. (2026). MotionBricks: Scalable Real-Time Motions with Modular Latent Generative Model and Smart Primitives. ACM Transactions on Graphics / arXiv. https://arxiv.org/abs/2604.24833
Tianyi Xie et al. (2026). GRAIL: Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors. arXiv preprint. https://arxiv.org/abs/2606.05160
NVIDIA (2026). SOMA Retargeter. GitHub repository. https://github.com/NVIDIA/soma-retargeter