陳永偉/文 幾天前,洛杉磯街頭發生了一起車禍。一輛Waymo公司的Robotaxi無人出租車在經過一個十字路口時,突然遇到一位迎面駛來的“行人”。盡管Robotaxi緊急剎車,但由于慣性作用,仍以每小時4英里(約合6.4公里)的速度撞上了“行人”。
又一起無人車事故!然而,神奇的一幕發生了:被撞的“行人”與車輛僵持了幾秒后,竟直接繞過Robotaxi,離開了事故現場。當這位“受害者”繞出鏡頭死角,再次完整地出現在人們面前時,大家驚訝地發現,這位“行人”根本不是人,而是一臺正在配送外賣的機器人。原來,這不僅是一場無人車事故,更是一場無人車撞機器人事故。
雖然這場交通事故沒有造成嚴重后果,但作為世界上首次肇事者和受害者都不是人的交通事故,它具有重要的標志性意義。
近幾年,科技的發展和普及日新月異。在ChatGPT橫空出世之前,若有人說AI不僅可以像真人一樣無障礙交流,還能幫人寫文章、畫漫畫、制作視頻,甚至編程、解數學題,恐怕大多數人會覺得這是科幻小說或異想天開。而僅僅兩年后,人們已經對類似的AI大模型習以為常,見怪不怪了。根據最新研究,在許多任務上,AI的能力已接近甚至超過了人類。
如今,人們已不再滿足于讓AI擁有“超級大腦”,更致力于為其賦予實體形態,“具身智能”(Embodied Inteligence)由此成為人工智能領域的一個熱點方向。
那么,具身智能技術是如何發展的?它的興起將帶來哪些新的機遇和挑戰?關于這一切,且讓我們慢慢說來。
具身智能發展簡史
靈魂與身體的關系在過去主要是哲學家的討論話題。然而,隨著人工智能的出現,這一哲學問題成為了科學問題。1956年的達特茅斯會議被認為是人工智能學科的起點。
在會上,學者們試圖通過計算機模擬和理解人類智能。他們普遍認為,智能來源于大腦或計算系統的內部結構與機制,而認知和思維可以通過計算、推理和信息處理實現。這種觀點契合笛卡爾的靈魂獨立性理論,被稱為“內在主義”。內在主義的核心流派是符號主義,主張智能可以通過形式化的符號系統來模擬,通過邏輯推理處理符號來完成復雜任務。
盡管內在主義在人工智能發展的初期占據主流,但也有另一批學者從不同的角度進行實踐。他們關注機械如何像人一樣感知和行動,理論基礎源于控制論。他們試圖創造依照物理法則運行的“身體”,這逐漸發展為機器人學。最初,內在主義與控制論是兩條平行發展的研究領域。內在主義專注于“靈魂”,而控制論聚焦于“身體”。
然而,20世紀80年代,局勢發生了變化。盡管符號主義在語言理解和專家系統等領域取得了一些突破,但其進展開始變得緩慢,許多學者對符號主義能否實現人工智能產生懷疑。而與此同時,機器人學的進展卻非常顯著。尤其是日本早稻田大學的研究團隊為機器人安裝攝像頭和傳感器,使其擁有視覺、聽覺和觸覺,并能夠根據環境調整行為。原本只關注“身體”的研究者,開始讓“身體”擁有“靈魂”的特質。
在這樣的背景下,一些學者開始質疑笛卡爾的觀點,轉而支持亞里士多德的身心合一論。他們認為,智能應從靈魂與身體結合的角度研究。喬治·萊考夫、馬克·約翰遜、洪貝爾托·梅圖拉納、弗朗西斯科·瓦雷拉、羅德尼·布魯克斯和詹姆斯·吉布森等人主張從這一角度重新思考智能問題,“具身智能”由此誕生為一個正式研究領域。
在20世紀80年代,“具身智能”領域曾經風光一時。在這一時期,該領域涌現出了一批重要的理論成就。1980年,萊考夫和約翰遜發表了《我們賴以生存的隱喻》(MetaphorsWeLiveBy),提出了具身認知(EmbodiedCog-nition)理論。這一理論強調,認知不僅依賴于大腦,還與身體的感覺和動作密切相關,從理論層面對內在主義提出了挑戰。在此基礎上,吉布森提出了“生態學知覺”(EcologicalPerception)理論。他認為,感知是個體直接從環境中提取信息的過程,而不是通過內部符號化或推理的間接過程,其本質是對環境的嵌入性。當人們感知到環境后,會根據“機會場”(Affordances)調整行為。例如,人們看到一張椅子,就會感知到可以坐的機會,然后再做出坐下的動作。機會場的感知是動態的,不同環境下,人們可能從同一事物中感受到不同的機會場,并做出不同的決策。根據吉布森的理論,行為并非僅由大腦思維驅動,而是一個由感知發動、與環境互動的復雜過程,身體的參與必不可少。
在實踐領域,具身智能的最大成就是布魯克斯的“行為型機器人”(Behav-ior-basedRobotics)。與符號主義者預先設計符號規則系統以形成決策、控制機器的方式不同,行為型機器人不依賴內部符號推理,而是通過感知與運動的行為層次進行控制。布魯克斯僅為這些機器人設置了一些簡單規則,如“遇到障礙應繞行”,這些機器人便能通過與環境的互動完成許多復雜任務。相比當時停滯不前的內在主義,具身智能領域可謂風景獨好,儼然有成為人工智能主流之勢。
然而,具身智能的風光并未持續很久。這主要有兩方面原因。一是當時的具身智能過于側重感知等低級智能行為,而對思維等高級智能活動涉及較少,這對關注人類思維的人工智能專家來說難以接受。二是受限于當時的算力,行為型機器人難以進一步完成更復雜的任務。在這種情況下,一些機器人專家重新回歸對算力需求較少的符號主義,而另一些專家則轉向復雜推理、規劃算法和建模技術,試圖找到新的解決方案。在這一背景下,具身智能技術路線在20世紀90年代陷入低谷。
進入21世紀后,受多方面因素推動,具身智能重新成為關注焦點。首先,認知科學和神經科學的進步使人們逐步認識到身體與感知、行為之間確實存在著亞里士多德所說的那種密不可分的關系。尤其是賈科莫·里佐拉提對鏡像神經元(mirrorneurons)的研究表明,人們對他人活動的理解和認識實際上是通過身體反應實現的,這為具身智能理論提供了有力的經驗證據。其次,機器學習領域的突破為具身智能提供了許多新工具。深度學習(DeepLearning)的發展讓機器人擁有了更強的“視覺”,可以更好地與環境互動;強化學習則顯著提高了機器人的訓練效率。再次,計算能力和硬件技術的飛躍為具身智能的復興提供了堅實基礎。處理能力、存儲能力和傳感器技術的提升,使得實時感知、運動控制和反饋循環等任務變得更可行。最后,大量的社會需求也推動了具身智能的發展。21世紀以來,人們對生產和生活自動化的要求不斷提升,工業機器人和無人車等領域備受追捧,而這些領域對人工智能與硬件的結合有著極高的要求,從而進一步推動了具身智能的發展。在上述一系列因素的共同作用下,沉寂十多年的具身智能終于再次成為顯學。
值得注意的是,這一輪具身智能的興盛與20世紀80年代那一輪具身智能的風光有很大不同。當時,具身智能主要作為內在主義,尤其是符號主義的反對者而存在,兩者之間是競爭關系。而這一輪,由于深度學習成為內在主義主流,同時又成為具身智能的重要基礎,內在主義與具身智能之間的壁壘被打破,二者的關系從沖突轉向合作。在實踐層面,二者也實現了“雙向奔赴”。人工智能公司在大模型領域取得突破后,迅速推進大模型的多模態化,讓智能體學會“看”“聽”“說”;機器人制造商在協調機械關節和軀體之后,也嘗試將其接入GPT等大模型,使機器人擁有更智能的交互能力。在這種跨領域合作下,具身智能的發展前景前所未有的廣闊。可以預見,不久的將來,具身智能體將越來越多地出現在我們的生活中。
具身智能帶來的機遇
盡管生成式人工智能以及由其衍生的AI智能體已經在相當程度上改變了生產和生活的格局,但與具身智能可能帶來的改變相比,這些仍然顯得微不足道。目前的AI智能體雖然可以實現許多交互功能,但這些交互大多停留在非物理層面。因此,它們與人類的互動始終存在局限性,難以實現自然和直觀的協作。例如,當GPT被用來輔導小孩做數學題時,用戶需要先將題目掃描并上傳,然后讀取GPT生成的文字輸出,而無法像老師一樣手把手教導孩子。這種不自然的交互方式在很大程度上削弱了其能力。此外,許多任務,尤其是與體力相關的任務,仍然需要有形的身體來完成。即使GPT能夠詳細說明如何照料老人,我們也無法指望它承擔養老職責。具身智能的興起為解決這些問題帶來了希望。
在智能制造領域,具身智能的價值主要體現在三個方面:
首先,具身智能可以大幅度提升自動化水平。雖然在現階段,自動化流水線已經得到了廣泛的應用,但它們主要依賴固定的程序和流程,只能執行固定任務,不能根據環境變化進行實時調整。以汽車裝配為例,如果傳輸帶上的零件出現了缺陷或者其型號與預定不符,那么自動化流水線將可能難以處理,甚至因此而發生事故。相比之下,具身智能作為一個自適應系統,則可以較好地處理類似的問題。當發現零件異常時,它們會主動把這些異常零件挑揀出來,以保證流水線的順利進行。這樣,整個流水線的故障率就可以大幅降低,其安全性將得到有效的提升。
其次,具身智能可以很好地支持“柔性化生產”(FlexibleManufactur-ing)。所謂“柔性化生產”,通俗來說,就是多品種、小批量的生產方式。隨著消費者需求的多樣化,市場對個性化產品的需求越來越強烈,這就對制造業企業的生產柔性化提出了更高的要求。對于這樣的要求,只能執行固定任務的傳統工業機器人將很難滿足,相比之下,具身智能則可以根據需要,很快給出對應的解決方案。《紐約時報》記者約翰·馬可夫曾對具身智能在“柔性化生產”領域中的應用前景做過很多討論。根據他的描述,“具身智能將實現定制化生產的普及。屆時,無論是個人化汽車,還是定制化手機,機器人都能根據客戶需求靈活調節生產線。”
再次,具身智能將會實現更高效的人機合作。現在,雖然AI智能體已經可以對很多任務提供建議,但它們并不具有獨立完成任務的能力。而具身智能則不一樣,在擁有了“身體”之后,它們不僅僅是單獨執行任務的機器,而是與工人協同工作,發揮各自的優勢。很多專家都對具身智能在人機協同生產方面的潛力表達出了樂觀。比如,日本著名機器人專家石黑浩就認為,未來工廠將成為人類與機器人密切協作的場所,機器人通過具身智能與人類工人一起完成生產任務,發揮團隊協作的優勢。他在一次TED講座中講道:“具身智能不僅僅是讓機器人完成任務,它們還將與工人協作,形成團隊優勢,提高整體生產力。通過分工,機器人可以處理重復性高、危險性大的任務,而人類工人則專注于創造性和決策性較強的工作。這就能讓生產的效率得到巨大的提升。”
在數字服務領域,具身智能也將帶來顛覆性變化。服務行業曾被認為是AI智能體難以介入的領域,但這一狀況正在改變。
養老和健康護理是具身智能的重要應用場景之一。隨著出生率下降和人均壽命延長,全球老齡化問題日益嚴峻。照料老年人不僅需要專業技能,還對體力和精力提出了較高要求,雇傭專業人士的成本往往超出普通家庭的承受范圍。在北京,雇傭一位全職保姆的工資約在6000元到10000元之間,還需提供食宿。由于成本限制,許多老人只能依賴子女的有限照顧。然而,子女因工作繁忙,能夠陪伴父母的時間極為有限,這使得養老行業出現了巨大的需求缺口。具身智能可以在一定程度上緩解這一問題。
當前,許多機器人公司已經開發出專門的養老機器人,這些機器人能夠提供全天候看護、健康監測、情感陪伴和緊急響應功能。通過聯網,它們還能幫助醫生實時監控患者的健康狀況,并在醫生指導下提供健康服務。這種技術能夠分擔部分養老責任,未來,隨著技術的進一步發展,養老機器人將能承擔更多重體力任務,成為養老隊伍中的重要力量。
教育培訓是另一個重要應用場景。知識和技能的傳遞需要師生間的互動,而非簡單的數據輸入輸出。盡管AI智能體儲備了海量知識,但其當前的交互模式限制了其在教育中的應用潛力。成年用戶或許可以通過與ChatGPT對話自學知識,但對于兒童而言,坐在電腦前通過聊天學習的吸引力較低。元宇宙曾被寄予厚望,但由于虛擬現實技術的發展受限,交互性不足的問題始終未能得到有效解決。而具身智能的出現為這一領域帶來了新希望。已有的教育機器人能夠通過內置的大模型與學生互動,回答問題并引導學習進度。實踐證明,學生對這類機器教師較為接受,互動性良好。隨著技術的進一步改進,未來每個家庭可能都能為孩子配備一位機器人教師。
具身智能的潛在應用場景極其廣泛,因此其經濟潛力備受關注。麥肯錫估計,到2030年,全球約有4億個崗位將采用自動化機器人,若人形機器人的滲透率達到20%,以單價15萬元至20萬元計,全球人形機器人市場規模可達12萬億元至16萬億元。而人形機器人僅是具身智能的一種形式,若考慮無人車、無人機及其他異形機器人的潛力,市場總值可能高達數十萬億元。
具身智能發展的挑戰
隨著具身智能概念的熱度不斷攀升,越來越多的創業者投身這一賽道,許多地方政府也競相推出支持政策。這些趨勢固然值得肯定。然而,作為技術的理性樂觀派,我們在面對這項技術的火熱發展時,必須正視其發展中存在的障礙及可能帶來的問題。
一個顯而易見的挑戰是技術瓶頸問題。盡管經過數十年的發展,具身智能領域已積累了較為豐富的技術儲備,尤其是在吸收深度學習和強化學習技術后,許多原本的技術難關得到了突破。然而,當前仍存在以下關鍵難點:
一是感知能力的提升尚有不足。盡管視覺、聽覺和觸覺傳感器技術不斷進步,要讓機器人像人類一樣準確感知復雜環境并識別動態目標和環境變化,仍是一個巨大的技術挑戰。例如,機器人在處理復雜的交通場景或社交場景時,可能會出現誤判或反應遲鈍。
二是環境適應與學習能力的限制。目前,大多數具身智能系統只能在實驗室或工廠車間等結構化環境中運行,而在開放、無序的環境中,機器人仍難以高效適應。在復雜任務的學習能力上,短板更為明顯。
三是多模態協同的挑戰。具身智能需要整合視覺、聽覺等多種感知通道,并協同處理相關數據。雖然多模態技術得益于大模型的發展取得了一定進展,但要進一步整合空間和行為數據,仍面臨算法優化和硬件支持的雙重挑戰。在這種情況下,要讓具身智能真正走入家庭,承擔養老、教育等急需的任務,恐怕還有很長的路要走。
需要注意的是,技術與需求之間可能存在“低均衡”問題。在現有技術條件下,具身智能最有潛力的應用場景難以實現,這使消費者對其需求不足,進而導致企業難以獲得改進技術所需的數據支持。如果這一循環得不到突破,具身智能的發展可能陷入停滯。
另一個重要問題是數據隱私與安全問題。與當前AI智能體的“虛擬交流”不同,人們與具身智能的互動是面對面的。隨著具身智能在日常生活中的普及,我們的行為數據將被智能體記錄,其中可能包括許多敏感信息,如健康數據、位置信息和行為習慣。這對隱私保護提出了更高的要求。此外,具身智能的廣泛應用也意味著其系統可能成為攻擊目標。惡意軟件或其他方式的攻擊可能影響機器人的判斷和行為,從而帶來物理上的安全隱患。由于具身智能具有實體,其可能造成的傷害比現有AI智能體更為嚴重。如果這些問題不能妥善解決,具身智能的應用和推廣將面臨巨大的阻力。
從社會和倫理角度看,具身智能的普及還涉及一系列深層次的問題。具身智能的普及不僅僅是技術問題,還涉及社會和倫理層面。
一方面,具身智能可能對勞動力市場造成沖擊。隨著其應用范圍的擴大,大量就業崗位可能因此流失,進而引發失業和收入分配不均等問題。另一方面,具身智能在決策時需要遵循特定的倫理規范。例如,在健康護理領域,機器人需要判斷何時干預或不干預,而這些決策是否符合倫理標準,以及如何制定規則確保其行為符合社會道德,仍是重要的挑戰。此外,隨著具身智能逐步融入日常生活,人類與機器之間的關系也變得更加復雜。人類是否會對智能體產生依賴,甚至影響社會行為與情感,這些都是需要深入研究的問題。如果這些問題得不到有效回應,社會對具身智能的接受度將受到很大影響。
第四是法律與監管框架的不完善。目前,全球范圍內針對具身智能的法律和監管仍處于探索階段。例如,在無人車與機器人的交通事故中,如何歸責?機器人對個人數據的使用應如何規范?這些問題尚無明確答案。這種法律上的空白為行業發展帶來了不確定性。
各國目前都在加快對具身智能立法的研究,但如何在實踐與規范之間取得平衡仍存在爭議。法律是否應超前制定以應對潛在問題,還是“讓子彈飛一會兒”,也有不同觀點。如何在技術發展與規范之間找到微妙的平衡,仍需進一步探討。
總而言之,盡管具身智能展現出了巨大的潛力,其發展仍面臨諸多障礙。從技術瓶頸到隱私安全,從社會倫理到法律規制,要全面擁抱具身智能,仍需要更多的準備與努力。
?