Part II: 로봇 조작 기술의 최전선

Chapter 5: Jim Fan과 GEAR — 일반화된 embodied agent 연구의 지도

집필일: 2026-06-08 최종수정일: 2026-06-08

Jim Fan의 연구 궤적은 NVIDIA 피지컬AI를 이해하는 좋은 지도다. MineDojo와 Voyager는 게임/시뮬레이션 세계에서 open-ended embodied agent가 어떻게 학습하는지 보여줬고, Eureka/DrEureka는 LLM이 reward와 domain randomization을 설계할 수 있음을 보여줬다 [3] [4] [5]. NVIDIA GEAR는 이 흐름을 실제 로보틱스, dexterous manipulation, world model, synthetic data로 확장하고 있다 [1].

Figure 5.1: Code-as-Policies 계열에서 언어 모델이 로봇 스킬 코드를 생성하는 구조. source: S3 reused figure
Figure 5.1: Code-as-Policies 계열에서 언어 모델이 로봇 스킬 코드를 생성하는 구조. source: S3 reused figure

5.1 GEAR의 핵심 질문

GEAR의 질문은 "로봇이 하나의 작업을 잘하는가"가 아니다. 더 큰 질문은 "로봇이 다양한 embodiment, 다양한 장면, 다양한 task에서 학습과 전이를 할 수 있는가"다. GR00T N1/N1.5/N1.7, DreamGen, DreamZero, EgoScale, DexMimicGen, DexUMI, RealDexUMI 같은 프로젝트는 모두 이 질문의 다른 조각이다.

제조 수작업 관점에서는 EgoScale과 DexUMI류가 특히 중요하다. 실제 작업자의 손동작, egocentric video, wearable interface, tactile signal을 로봇 학습으로 옮길 수 있다면, 제조사는 기존 작업자의 tacit knowledge를 데이터 자산으로 바꿀 수 있다 [1].

5.2 LLM agent에서 robot agent로

Voyager는 Minecraft에서 LLM이 skill library를 만들고, 실패를 반영하고, 점진적으로 탐색하는 구조를 보여줬다 [4]. S3는 이 구조를 agentic robotics와 비교했다. 로봇도 skill library와 memory가 필요하지만, 물리 실행은 비가역적이다. 따라서 제조 로봇의 agentic loop에는 세 가지가 추가된다.

  • 실행 전 simulation check
  • 실행 중 force/vision/tactile anomaly detection
  • 실행 후 quality outcome 기반 update
Figure 5.2: CaP-X처럼 코딩 에이전트의 execute-debug 루프를 로봇 조작으로 옮기는 구조. source: S3 reused figure
Figure 5.2: CaP-X처럼 코딩 에이전트의 execute-debug 루프를 로봇 조작으로 옮기는 구조. source: S3 reused figure

5.3 제조사가 GEAR에서 배울 것

GEAR의 최전선 논문을 그대로 생산에 넣기는 어렵다. 그러나 연구 방향은 전략적으로 중요하다. 미래의 제조 로봇은 hand-coded sequence가 아니라 demonstration, simulation, language instruction, force/tactile feedback이 결합된 skill graph가 될 가능성이 높다. 제조사는 지금부터 작업자 동작을 촬영/텔레옵/센서화해 학습 가능한 형태로 보존해야 한다.

참고문헌

  1. NVIDIA GEAR (2026). GEAR Publications. NVIDIA Research.
  2. Jim Fan (2026). Jim Fan Homepage. Personal Research Page.
  3. Linxi Fan et al. (2022). MineDojo: Building Open-Ended Embodied Agents with Internet-Scale Knowledge. arXiv.
  4. Guanzhi Wang et al. (2023). Voyager: An Open-Ended Embodied Agent with Large Language Models. arXiv.
  5. Yecheng Jason Ma et al. (2024). DrEureka: Language Model Guided Sim-to-Real Transfer. arXiv.
  6. DexUMI Team (2025). DexUMI: Using Human Hand as the Universal Manipulation Interface. arXiv.