行為主義心理學在人工智能中鹹魚翻生
地區:美國
不用我多介紹,大家都知道,現在人工智能與機械學習已經影響到人們生活的每一個環節。但可能很少人知道,當今其中一種機械學習模型是基於一個所謂過時的心理學說:行為主義。
很多年前筆者修讀心理學時候,弗洛伊德的精神分析與史金納(B F. Skinner)的行為主義心理學是兩個飽受批評和嘲諷的心理學派,有些人高舉這兩個學派以外的第三勢力:馬斯洛的人文主義心理學。後來出現的認知心理學(Cognitive psychology ) 更加成為了心理學的主流,行為主義彷彿成為了心理學歷史書的一個註腳。
為甚麼曾經盛極一時的行為主義後來會成為眾矢之的呢?讓我先簡單介紹行為主義的要點,顧名思義,行為主義的重點是人類的行為,史金納認為心理學應該將注意力放在怎樣解釋和改變行為,而不需要探究思想的內部過程。人類行為是對外部刺激的反應(stimulus-response ), 通過獎賞和懲罰,你就可以改變一個人,例如強化(reinforce)他的行為。史金納曾經跨下海口:「給我一個孩子,我可以將他塑造成任何人。」史金納在其名著《超越自由與尊嚴》(Beyond Freedom and Dignity)中,批判了傳統的自由和尊嚴觀念,他認為兩者都構成了對科學和社會進步的障礙,因為自由意志和個人自主的概念是虛幻的,人類行為主要受環境偶然事件的影響。
相信即使沒有受過心理學訓練的讀者也可以指出行為主義的問題。行為主義過度簡化了心理學,將人類視為沒有個性的機器,其實,即使面對同樣的外部環境刺激,不同人會有不同的反應,行為主義完全沒有考慮個體差異。行為主義的做法還牽涉到倫理問題,按照行為主義的方法,你可以軟硬兼施地操控人。
鑒於以上的問題,很多心理學家將行為主義束之高閣,令人意外的是,在人工智能盛行的這個年代,行為主義竟然鹹魚翻生!上世紀70年代和80年代,電腦學家參考了行為主義心理學怎樣強化人類行為的模式,將「強化學習」(reinforcement learning)應用於簡單的問題,例如控制機械人和讓電腦玩簡單的遊戲。踏入90年代和兩個世紀之交替期間,「強化學習」 的電腦程式突飛猛進。強化學習與其他人工智能的學習演算法有一個很大的區別:強化學習願意承受短暫的損失,從而取得長遠的利益,以下棋為例,玩這個遊戲的最終目的是全勝,強化學習的人工智能不會貪吃眼前的兵卒, 而是推算在幾十步之後怎樣把對方將軍。換句話說,強化學習情願輸掉戰鬥,也要贏取整場戰爭(lose the battle but win the war ), 2016年谷歌的人工智能系統AlphaGo打敗了世界棋王,正是採用這種戰略。如今,強化學習已經被廣泛應用於解決各種實際問題,例如自動駕駛、推薦系統、個性化醫療……。
為甚麼行為主義在人工智能這領域中會取得如此巨大的成就呢?上面提過行為主義的缺點在電腦裡面反轉過來,變成了優點! 不錯,行為主義過度簡化了人類複雜的心理,人類不是機器,人類有個性、情緒、 偏見、自由意志。然而,電腦就是機器!電腦沒有個性,同樣的輸入會得到同樣的結果;人類並不善於學習,有時候縱使受過無數的獎賞和懲罰,人類仍然沒有因此而改變行為, 我們有許多詞語和句子來描述這種現象:「江山易改,稟性難移」、「冥頑不靈」、「花崗石腦袋」、「 屎坑石頭, 又硬又臭」、「意見接受,行動照舊」、「 歷史給予人最大的教訓,就是人類從來沒有從歷史吸取教訓」……。但機械學習卻完全是另一回事, 在大多數情況下,演算法從過去案例的錯誤中學習了教訓之後,便會不斷地完善自己,不會重複同樣的錯誤。還有,強化學習可以 高瞻遠矚,但人類往往貪圖眼前的利益,因小失大。
一位名叫基思賈爾斯(Keith Giles)的美國牧師曾經說: 「我們不應該害怕人工智能比人類更加聰明……,應該令我們恐懼的是,我們創造了知道如何克服人類弱點的機械學習。」賈爾斯在他的文章中只是討論一般的人工智能,而不是強化學習,但這真知灼見 更加適用於強化學習。
此外,行為主義的敗部復活實在令人鼓舞,誰會料到,在心理學裡面被認為是過度簡化和過時的理論,竟然幾十年後在人工智能領域中大放異彩呢?套用在人生的際遇上,也許換了環境,一個人的短處會突然之間變成了長處! 我經常用這種想法來鼓勵自己。