行為主義心理學在人工智能中鹹魚翻生

余創豪 | 美國亞利桑那州立大學（Arizona State University）教育心理學博士，專門於心理測量與統計學，亦是同校哲學博士，專門於科學哲學與歷史，現在是美國阿蘇薩太平洋大學（Azusa Pacific University）應用行為科學與數據科學教授。

08/03/2023

專欄：有情無國界 （＊所有文章只屬作者個人意見，不代表本社立場）
地區：美國

不用我多介紹，大家都知道，現在人工智能與機械學習已經影響到人們生活的每一個環節。但可能很少人知道，當今其中一種機械學習模型是基於一個所謂過時的心理學說：行為主義。

很多年前筆者修讀心理學時候，弗洛伊德的精神分析與史金納（B F. Skinner）的行為主義心理學是兩個飽受批評和嘲諷的心理學派，有些人高舉這兩個學派以外的第三勢力：馬斯洛的人文主義心理學。後來出現的認知心理學（Cognitive psychology ）更加成為了心理學的主流，行為主義彷彿成為了心理學歷史書的一個註腳。

為甚麼曾經盛極一時的行為主義後來會成為眾矢之的呢？讓我先簡單介紹行為主義的要點，顧名思義，行為主義的重點是人類的行為，史金納認為心理學應該將注意力放在怎樣解釋和改變行為，而不需要探究思想的內部過程。人類行為是對外部刺激的反應（stimulus-response ），通過獎賞和懲罰，你就可以改變一個人，例如強化（reinforce）他的行為。史金納曾經跨下海口：「給我一個孩子，我可以將他塑造成任何人。」史金納在其名著《超越自由與尊嚴》（Beyond Freedom and Dignity）中，批判了傳統的自由和尊嚴觀念，他認為兩者都構成了對科學和社會進步的障礙，因為自由意志和個人自主的概念是虛幻的，人類行為主要受環境偶然事件的影響。

相信即使沒有受過心理學訓練的讀者也可以指出行為主義的問題。行為主義過度簡化了心理學，將人類視為沒有個性的機器，其實，即使面對同樣的外部環境刺激，不同人會有不同的反應，行為主義完全沒有考慮個體差異。行為主義的做法還牽涉到倫理問題，按照行為主義的方法，你可以軟硬兼施地操控人。

鑒於以上的問題，很多心理學家將行為主義束之高閣，令人意外的是，在人工智能盛行的這個年代，行為主義竟然鹹魚翻生！上世紀70年代和80年代，電腦學家參考了行為主義心理學怎樣強化人類行為的模式，將「強化學習」（reinforcement learning）應用於簡單的問題，例如控制機械人和讓電腦玩簡單的遊戲。踏入90年代和兩個世紀之交替期間，「強化學習」的電腦程式突飛猛進。強化學習與其他人工智能的學習演算法有一個很大的區別：強化學習願意承受短暫的損失，從而取得長遠的利益，以下棋為例，玩這個遊戲的最終目的是全勝，強化學習的人工智能不會貪吃眼前的兵卒，而是推算在幾十步之後怎樣把對方將軍。換句話說，強化學習情願輸掉戰鬥，也要贏取整場戰爭（lose the battle but win the war ）， 2016年谷歌的人工智能系統AlphaGo打敗了世界棋王，正是採用這種戰略。如今，強化學習已經被廣泛應用於解決各種實際問題，例如自動駕駛、推薦系統、個性化醫療……。

為甚麼行為主義在人工智能這領域中會取得如此巨大的成就呢？上面提過行為主義的缺點在電腦裡面反轉過來，變成了優點！不錯，行為主義過度簡化了人類複雜的心理，人類不是機器，人類有個性、情緒、偏見、自由意志。然而，電腦就是機器！電腦沒有個性，同樣的輸入會得到同樣的結果；人類並不善於學習，有時候縱使受過無數的獎賞和懲罰，人類仍然沒有因此而改變行為，我們有許多詞語和句子來描述這種現象：「江山易改，稟性難移」、「冥頑不靈」、「花崗石腦袋」、「屎坑石頭，又硬又臭」、「意見接受，行動照舊」、「歷史給予人最大的教訓，就是人類從來沒有從歷史吸取教訓」……。但機械學習卻完全是另一回事，在大多數情況下，演算法從過去案例的錯誤中學習了教訓之後，便會不斷地完善自己，不會重複同樣的錯誤。還有，強化學習可以高瞻遠矚，但人類往往貪圖眼前的利益，因小失大。

一位名叫基思賈爾斯（Keith Giles）的美國牧師曾經說：「我們不應該害怕人工智能比人類更加聰明……，應該令我們恐懼的是，我們創造了知道如何克服人類弱點的機械學習。」賈爾斯在他的文章中只是討論一般的人工智能，而不是強化學習，但這真知灼見更加適用於強化學習。

此外，行為主義的敗部復活實在令人鼓舞，誰會料到，在心理學裡面被認為是過度簡化和過時的理論，竟然幾十年後在人工智能領域中大放異彩呢？套用在人生的際遇上，也許換了環境，一個人的短處會突然之間變成了長處！我經常用這種想法來鼓勵自己。

有情無國界