DeepMind紀錄片:通用AI將至,它比網路、手機更重要,就像人類發現火
DeepMind紀錄片《思考遊戲》(The Thinking Game)免費公開,記錄了Demis Hassabis跟夥伴畢生追尋通用AI(AGI)的旅程,而他的旅程即將抵達終點站。
The Thinking Game:DeepMind發展全紀錄
自大語言模型(LLM)聊天機器人 ChatGPT 問世以來,生成式 AI 在短短三年內,已經徹底改寫人們對程式設計、創意工作的勞動分配。
在 AI 是否會取代工作、取代人類的討論與擔憂甚囂塵上之時,一支紀錄通用 AI (AGI) 公司 DeepMind 的《思考遊戲》(The Thinking Game)紀錄片,近日很應景地在 YouTube 上免費公開。
站在生成式 AI 應用爆發,迎向 AI 代理人(AI Agents)的關鍵時刻,現在或許是我們好好回顧 AGI 發展歷程,與思考未來的最佳時機點。
(本文摘自The Thinking Game內容,如果你願意挪出1個小時半的時間,更建議你直接觀賞紀錄片)
Demis Hassabis:「我的畢生目標是研究 AGI,我認為這比手機、網路還重要,更像是電力、與火的出現。」
作為在六歲就在地方西洋棋比賽奪冠的劍橋大學高材生,Demis Hassabis 很早就把 AGI 研究當成一輩子的使命,因為他想解決一個困擾生物學界 50 年的問題:蛋白質摺疊。
現在我們可能很難想像,但當時有很多創投界及學術界的人,對 AGI 技術抱持很大的質疑。前者認為 Demis 的想法像在畫大餅,後者則認為把神經科學+機器學習結合,不是純正的科學。
在 2010 年成立的 DeepMind,早期的募資之路可謂困難重重,直到他們遇到知名天使投資人彼得·提爾(Peter Thiel)。
提爾雖然成為了 DeepMind 大金主,但他堅持要團隊搬去矽谷,但 Demis 堅決留在倫敦,他認為這裡有獨特的人才庫,且矽谷那種快速失敗、快速轉向的文化,不適合需要長期研究的 AGI 技術。

DQN模型誕生,遊戲成AI訓練最佳實驗場
DeepMind 在倫敦成立後,聚集了一群夢想家。為了訓練 AI,他們決定使用「遊戲」作為實驗場,因為遊戲是完美的受控環境。
他們把深度學習(Deep Learning)與強化學習(Reinforcement Learning)技術結合創造出 DQN 模型,並讓 AI 玩雅達利(Atari)的乒乓球遊戲,但不教它規則,只要求他要看像素並追求高分。
一開始,AI 連一顆球都接不到,讓團隊一度懷疑 AGI 技術是否只是空想,但突然間,AI 開始得分了。
然後他們開始讓 AI 玩《打磚塊》(Breakout)這款遊戲。經過數百局訓練後,AI 竟然自己學會了挖通側邊的牆壁,讓球在磚塊上方反彈的挖隧道策略。最重要的是,這是一個沒有人類預設、由機器自己發現的最佳解答。
這證明,DeepMind 成功創造一種能夠適應不同環境的通用學習系統,這在 AGI 發展中是一個巨大的突破。

儘管機器學習技術突破,但算力卻成為瓶頸。為了加速實現 AGI,DeepMind 最終同意被 Google 以約 4 億英鎊收購,但他們希望保持研究的獨立性。
震驚全球的圍棋賽:AlphaGo打敗最強人類棋手
有了 Google 的算力支持,DeepMind 將目光轉向起源於中國的「圍棋」,這曾被認為是 AI 難以攻克的聖杯。
於是,AlphaGo 誕生了,並跟世界上最強人類圍棋手李世石展開對決。
接下來的故事很多人都知道了,AlphaGo 下出了震驚世界的第 37 手,這一手被視為人類棋手幾乎不可能會走出的原創步數,讓人類意識到機器不只是很會算數學,還展現了創造力。

李世石的落敗震驚全球,尤其對中國而言就像是史普尼克危機(Sputnik moment),喚醒了全球對 AI 的重視,並引發了一場 AI 版的「太空競賽」。
AlphaGo 雖然強大,但主要是依賴人類棋譜數據來學習。DeepMind 隨後開發了 AlphaZero,這是一個更優雅的演算法,完全摒棄人類知識,只透過自我對弈來學習下棋。
AlphaZero 從零開始,在一天之內就精通了西洋棋、將棋和圍棋,甚至展現出人類未曾見過的棋風,證明機器可以通過純粹的經驗,超越人類千年的智慧積累。
讓AI變得比人類聰明後,DeepMind回歸初衷
遊戲只是實驗場,Demis 真正的野心一直是用 AI 解決科學難題,也就是開頭提到的「蛋白質摺疊」,長久以來被視為人類最大的生物謎團,如果人類能夠預測蛋白質結構,就能加速藥物開發、治療疾病。
為了測試 AI 在生物學領域的可能性,DeepMind 成立 AlphaFold 團隊並參加 CASP(蛋白質結構預測競賽)。
在 2018 年的 CASP13 中,AlphaFold 雖然贏了比賽,但準確度仍不足以讓生物學家在實際研究中使用,這讓團隊感到挫折與謙卑,意識到科學問題比遊戲複雜得多。

不願放棄的 Demis,在新冠疫情期間加倍投入研究 AlphaFold,組建了一支結合物理學知識與機器學習的突擊隊。
在居家隔離的艱難環境下,他們日以繼夜地工作。最終,在 2020 年的 CASP14 中,AlphaFold 取得驚人成績。科學界也公認,蛋白質摺疊問題已被實質性的解決。
然後,DeepMind 做了一個大膽的決定。他們不把這份成就商業化,而是把超過 2 億種蛋白質,幾乎是地球上所有已知的蛋白質序列的預測結構免費公開,將科技的果實無償普惠給生物界,Demis 與另一名研究人員 John Jumper 也因該創舉,獲得了 2024 年諾貝爾化學獎。
AGI將誕生,負責任管理每刻都很重要
現在,基於 LLM 技術推出的 ChatGPT、Gemini、Grok 等 AI 產品,正讓普通人也能深刻地體會到 AI 科技的衝擊。
而下一步,AGI 的時代即將來臨,將成為人類歷史的分水嶺。正如 AlphaFold 解開了生命的謎題,未來的通用 AI 可能會重塑人類的文明。
Demis 說,科技是中立的,但人類的使用方式會決定善惡。他曾要求 Google 承諾,絕對不能把 DeepMind 的技術用於軍事監視,並強調不能抱持快速行動、打破常規的態度。
因為他認為,AGI 技術太過強大,一旦失控,後果將不堪設想:
「AGI 即將誕生,我們的下一代將生活在一個全新的世界。因為有了 AI,一切將截然不同。如果你想要負責任的管理 AI,那麼每一刻都是重要的,我這輩子就是為了這一刻。」
