為了上火星,Tesla機器人為何要先學會拿雞蛋 | To Conquer Mars, Why Must Tesla's Robot First Learn to Handle an Egg?

Featured

作者:虛舟問渡

在2024年,當波士頓動力的Atlas以後空翻震驚網路、Figure AI 與 OpenAI 的新聞不斷放送時,特斯拉的Optimus(擎天柱)看似慢了一拍,卻悄悄走出一條不太光鮮、但可能更根本的路:先學會拿生雞蛋、疊T恤、在工廠裡做日常工作。本文整理並深入分析我對Optimus設計理念、技術路線與馬斯克終極目標(火星)的觀察與思考。

Boston Dynamics 的 Atlas 展示後空翻的短片畫面

目錄

開場:2024 年的人形機器人賽道熱鬧又分流

今年人形機器人圈子炸開了鍋:波士頓動力把液壓Atlas退役、推出更輕的純電版;Figure AI 一推出就得到微軟、NVIDIA、貝佐斯等重量級投資,並宣稱要和 OpenAI 合作打造更聰明的機器「大腦」。相較之下,Optimus 從被笑稱是舞台上穿白衣的「演員」,慢慢發展到能完成深蹲、拿生雞蛋、疊衣服的原型,外界的期待和懷疑同時存在。

Optimus 原型機在舞台上走上台的畫面

重點:為什麼「拿雞蛋」比「跑酷」更關鍵?

很多人看見後空翻、跑酷就覺得機器人很厲害,但我常用一個比喻去說明本質差別:駕訓班的「口訣」跟真正會開車的人。許多機器人的展示,像是考場裡背誦的口訣——在特定、完美設計的環境下執行預先設計的動作;一旦現實環境變了(燈光、角度、物體形狀),就容易卡殼。

而拿生雞蛋、疊T恤這類任務,考驗的不是單一精準動作,而是感知、力控、視覺識別與靈活性的綜合能力:柔軟物體的形狀千變萬化,攝影機看到的每一次抓取都不一樣,必須實時判斷、調整力度與手部姿態,這更接近「可遷移的經驗」——也就是通向通用人工智慧(AGI)的方向。

Optimus 拿起生雞蛋的示範畫面

Optimus 想做的:不是培養考場冠軍,而是培養「老司機」

特斯拉的目標不是在受控環境中表演,而是培養一個能在「亂七八糟」真實世界自行找出解法的全能體。換句話說,它要的是能在不同場景、不同工具下把經驗套用出來的能力──學會「如何學」。這與只會在特定場景高效運作的傳統工業機器人截然不同。

專科醫院 vs 全科醫生:大腦設計的哲學差異

傳統機器人像是一家分科極細的醫院:走路一套、看路一套、抓物一套,彼此不協同。Optimus 則希望打造一個像全科醫生一樣的統一體系,雖然在某一項目未必超越專家,但能把各項感知和動作整合起來,由整體出發做出決策。

示意:Optimus 追求統一知識體系的比喻畫面

學習方法:Optimus 是怎麼「偷師學藝」的?

這是Optimus最令人感興趣也最顛覆的地方:它不是工程師一行行寫死板規則,而是靠「模仿學習」。想像一名工程師戴著 VR 頭盔,用手柄在真實世界中示範如何拿杯子,系統會同時錄下視覺資訊、手部每一個細微的動作與用力大小──這些就是「教學錄影帶」。機器人大量反覆觀看、學習這些示範,目標是把看到的「題目」對應到應該做出的「標準答案」動作。

工程師戴著 VR 示範操作,系統錄製示範資料的場景示意

這種把感知與身體動作綁在一起的學習,和只讀文本的語言模型(例如 ChatGPT)截然不同:語言模型能「知道」杯子的概念,但Optimus 要的是「摸得到」、「拿得穩」的身體感覺。這正是通用性經驗能夠遷移到新任務的基礎。

Featured

視覺:八顆攝影機如何拼出一個 3D 世界?

Optimus 裝了八個攝影機,從不同視角同時觀察。但八張平面影像如何轉成有前後、深度、障礙物的立體世界?這需要將多路視覺信息即時拼接重建成 3D 感知,核心技術之一就是大家熟悉的 Transformer 架構——它不只是語言模型的基礎,同樣擅長處理多路視覺資料並在內部建立空間關聯。

手的工程學:為何手是最貴也最關鍵的地方?

機器人的「手」可能是整體中最難、也最昂貴的部位。最新一代的手有 22 個可獨立活動的關節(人手是27個),內部塞進了複雜的 V 型馬達、減速器與大量感測器。最重要的是這雙手「有感覺」:能即時偵測抓握力量,做到剛剛好的力度,這解釋了為什麼它能拿起生雞蛋而不把它捏碎。

Optimus 手部關節與內部馬達感測器的示意畫面

有了這種精細力控,馬斯克甚至提到未來 Optimus 會學會彈鋼琴──這幾乎是對手部精細操控的終極檢驗。

火星:為何一切都要為了那個終極考場準備?

如果你以為特斯拉做這些只是為了地球上的工廠勞務,那你就低估了馬斯克。其實,Optimus 的終極目標是火星。火星環境極其嚴苛:

  • 夜晚溫度可達 -80°C,潤滑油會像蠟一樣硬化。
  • 遍佈細微帶電紅色塵埃,會以砂紙般侵蝕精密關節。
  • 重力約為地球的三分之一,既讓某些動作變得「看似輕鬆」,卻會讓平衡算法全失準,步態必須重新適配。
  • 宇宙射線會擊中晶片內的微小開關,造成偶發錯誤。
  • 通信延遲極大:地球到火星的通訊延遲最短也需數分鐘、最長可超過20分鐘,等指令回傳時常已無用。

火星表面與惡劣環境的示意畫面

這一切意味著:在火星上遙控是不可能的,機器人必須具備高度的自治決策能力。為了這個「不能妥協」的終極考場,特斯拉被迫在地球上先把最根本的問題解決掉──感知、力控、學習遷移、可靠性與成本。

Featured

現實的四大卡關:錢、隱私、恐怖谷與真實性

即便技術路線清晰,落地仍有四個不能輕忽的現實問題:

  1. 造價:現階段像 Atlas 這類頂級人形機器人價格動輒超過 15 萬美元,屬於研究室玩具。馬斯克的目標是把一台 Optimus 壓到約 2 萬美元,靠的是把機器人放進汽車量產線、使用特斯拉已量產的成熟零件來大幅降低成本。
  2. 隱私:Optimus 裝了 8 顆攝影機,像是會走動的不關機監控器。若放進家中或辦公室,這些視覺數據會傳到哪裡?誰能看?如何防止濫用?不解決隱私問題,消費者不會把它帶回家。
  3. 恐怖谷效應(Uncanny Valley):外形與行為過於接近人類,但又有細微不自然,會引發本能的排斥與恐懼。如何在外觀與動作上取得心理可接受性,是走向普及的重要課題。
  4. 真實性(Autonomy):我們常質疑:Optimus 做出來的動作究竟有多少是真自主?過去的展示中曾出現「今天是人類協助」的坦白,這讓外界更懷疑其自主性。但也有人說,現在是否有人工協助並非重點,關鍵在於這台機器未來能學到什麼。

標示 Tesla 目標成本 2 萬美元的示意畫面

那麼,Optimus 真的「靠得住」嗎?

到今天為止,Optimus 的「真實性」仍是最大的謎。有人把目前的演示比喻成 F1:即便現階段還有人在人為協助,車子本身仍是性能工具;關鍵是未來這工具能否靠自我學習而變得真正自主。特斯拉的策略是把學習和硬體做在同一條生產線、用大批量示範與實際操作來把經驗普及化。

“I'm not yet fully autonomous.”(我尚未完全自主)

Optimus 說明尚未完全自主的片段畫面

結論:為火星而生,卻以最人類的方式學習

最有趣的悖論是:一台設計為征服火星、在極端環境中獨立運作的機器,選擇了最「人類」的學習方式──用身體去摸、用感覺去學、透過模仿把經驗內化。當機器學著「做人」般去學習與適應,我們反而被迫重新思考「什麼是人」──這或許正是這條路最令人著迷的地方。

總結性畫面:為火星而生卻以人類方式學習的意象

FAQ(常見問題)

Q1:為什麼拿雞蛋比跑酷更像是通往 AGI 的路徑?

A1:跑酷展示主是控制與動力學在受控情境下的極致表現;拿雞蛋、疊衣服等任務則需要將視覺、力控、觸感與策略整合,且能在千變萬化的實際環境中遷移經驗,這種「感知—動作綁定」更接近有身心的通用學習。

Q2:單一神經網路(single neural network)與端到端架構是什麼好處?

A2:好處在於統一知識表現,避免過度拆分為多個互不溝通的模組。當大腦能直接從感知映射到動作指令,並以大量示範學習,經驗便更容易在不同任務間遷移。

Q3:Optimus 要如何解決隱私問題?

A3:這需要軟硬體與政策多管齊下:例如在設備端做資料最小化與本地化處理、加密傳輸、用戶可控的資料分享設定,與第三方監管與合約限制等。目前是業界共同面臨的挑戰。

Q4:馬斯克提出的 2 萬美元目標可信嗎?

A4:這是個大膽目標,實現關鍵在於量產與零件共用策略。若能把機器人放到汽車級的大規模生產線、用既有成熟零組件去替代手工精製零件,成本確實有望大幅下降;但要達成仍有技術、供應鏈與品質管控等多重挑戰。

Q5:我們何時會看到真能在家裡工作的 Optimus?

A5:短期(幾年內)可能會先在特定工業場景與受控環境實用化;家庭普及還需跨越成本、隱私、可靠度與心理接受度等障礙。具體時間很難預測,但這是一條需要長期耕耘的路。

最後的話

當我們把視角拉遠,就會發現Optimus不是在一場跑酷秀競賽中一定要搶第一,而是在做一場長期的「學習工程」。為了能在火星上獨立生存,今天在地球上看似笨拙的拿雞蛋、疊衣服,反而可能是通往真正自主機器智慧最踏實的一步。

我是虛舟問渡,我們下次再聊。