AI研究有個核心問題:怎麼讓一個系統在沒人盯著時,還能自主學習、修正錯誤、累積能力?

把「系統」換成「孩子」,你會發現問題忽然變得很熟悉。差別是,AI可以重啟、清掉記憶、重新部署,孩子不行。

你隨口說出的「你怎麼這麼笨」,可能不只是一句氣話,而會被寫進他很久以後仍拿來理解自己的先驗(A priori,指「先於經驗」或「獨立於經驗」即可知、可證或成立的知識與概念)。你一次又一次只看分數、不看過程,也是在訓練他把人生變成一場得分遊戲。

我們常以為教育的問題在於孩子不夠努力、不夠自律、不夠主動。但換個角度看,很多時候問題不只在孩子,而在我們設計的獎勵函數本身就寫錯了。

最近我常看李宏毅教授在YouTube上的開放課程。除了能了解生成式AI的發展與應用,我也發現,這個領域的許多研究成果,似乎能和教養孩子的某些哲學互相照亮。例如,他在課程中談到,prompt的語氣可能影響AI agent的產出品質,不禮貌或過度禮貌的語氣,都可能讓表現變差。

順著這條線索,我也讀了一些AI agent相關研究,包括Reflexion、Voyager,以及WebArena、AgentBench等評量基準。它們談的其實是同一件事:一個能自主行動、修正錯誤、累積能力的系統,需要什麼條件才能建立起來。

孩子終究不是AI agent,也不是父母拿來最佳化的人生專案。AI研究在這裡是一面鏡子,不是一份藍圖。它讓我們重新看見,教育不只是「有愛就好」或「管教就好」,也可以被視為一個系統設計問題。

失敗需要翻譯,才會變成學習

「你表現得很差」能告訴聽者的資訊其實很少。它沒有指出哪裡差、為什麼差、下一步該怎麼調整。對模型來說,這種訊號很難提供可操作的修正方向;對孩子也是如此。

當父母說「你怎麼這麼笨」,這句話傳遞的有效資訊接近零,情緒強度卻極高。孩子學到的,往往只是避開讓父母不滿的場景。至於能力該往哪裡修正、錯誤該怎麼拆解成下次能用的線索,他什麼也沒有得到。

Reflexion提供了另一個切入點。它讓AI agent把每次失敗整理成「反思文字」,存進記憶系統,下一次嘗試時再調用。這個設計最大的啟發是:只有當失敗被處理成可調用的反思,才真正可能帶來進步。

AI agent的反思可以儲存在外部記憶,換一個對話框也許就忘了;孩子的失敗經驗卻沒有這麼模組化。一次過於嚴厲的回饋,可能進入自我認知、羞恥感與風險迴避模式,跟著他10年、20年。

所以父母真正該思考的,不是「能不能批評」,而是批評能不能變成孩子未來可用的工具,還是只留下一個揮之不去的陰影。

你獎勵什麼,孩子就學會什麼

AI alignment領域反覆討論一個問題:reward hacking。當你給agent一個獎勵函數,它就會找出最大化分數的方法,但這個方法常和你真正想要的東西無關。

例如,如果只獎勵清掃機器人「撿起垃圾的次數」,它理論上可能學會把垃圾弄出來再撿。表面上分數提高了,卻背叛了真正目標。社會科學的古德哈特定律、教育領域的坎貝爾定律,談的也是類似情況:當指標變成目標,它就不再是好指標。

孩子最後優化的,通常也是家庭與學校制度裡真正被獎勵的行為。你獎勵分數,他就優化分數;你獎勵聽話,他就優化服從。大人嘴上說在乎品德,實際給予讚美與資源時卻永遠看分數,孩子就會明白:品德是說給大人聽的,分數才是真正的獎勵函數。

當回饋系統獎勵的是「讓大人滿意」,孩子也可能把力氣拿去察言觀色,而不是形成自己的判斷。你用結論句開場,他容易學會配合;你用問題句開場,他才有空間摸索自己的想法。

「假性乖孩子」也可能如此形成。當回饋系統真正獎勵的是順從表象,孩子就會說會被讚美的話、做會被肯定的決定,再把真實的困惑與懷疑藏起來。

所以父母要問自己的,不是口頭上宣示什麼價值,而是注意力、情緒與資源,實際分配給了哪些行為。孩子是在我們設計的獎勵函數裡長大的。

主動性不是喊出來的

Voyager讓GPT-4在Minecraft裡自主探索,生成下一個學習目標,再把學會的技能存成可重複調用的程式碼庫。它能這麼做,靠的是3個條件:可以安全探索的環境、能累積技能的記憶系統、能修正錯誤的回饋機制。

這提醒我們,主動性不是用嘴巴喊出來的。

一個從小被規劃所有時間、評斷所有選擇、糾正所有錯誤的孩子,缺少的正是找到動機所需的環境。沒有安全探索的空間,他學不會主動嘗試;沒有能累積經驗的回饋,他學不會把成敗轉成下一次的能力;沒有自己的修正權,他只會等別人告訴他答案。

自主不是放任。過度控制,會讓孩子像永遠等待下一個指令的高級員工;完全放手,卻沒有資源、邊界、回饋與技能沉澱,所謂探索也可能只是迷路。

真正的自主,比較接近「鷹架理論」(scaffolding)。大人先搭好支撐結構,再隨著孩子能力增長,一點一點把支撐拿掉。先提供難度適中的任務,教他查資料、問問題、整理筆記、拆解模糊任務,也教他在卡住時求助;最後,再慢慢把選題權交還給他。

我們常讓孩子看完美解法,卻沒有教他偏離軌道後怎麼救回來。這也是不少優秀孩子的困境:平常表現很好,一旦考試失常、計畫延誤或人際受挫,就整個崩潰。因為他學會的是如何照正確流程成功,卻不知道如何從錯誤狀態恢復。

不過,孩子的動機比Voyager複雜得多。內在動機還牽涉自主感、勝任感與歸屬感,也和「我是誰、我想成為誰、我在乎誰」緊密相連。

有一天,外部prompt會消失

WebArena與AgentBench顯示,單題能力和長鏈任務能力不是同一件事。長鏈任務包含多個步驟、跨情境,需要記住先前發生的事,也要在沒有立即回饋時維持方向。

這和孩子的成熟有結構上的相似。能把每道題答得漂亮,當然值得掌聲;但真實世界更像一條長路,每一步都有模糊、延遲回饋與心理耗損。很多人最後輸在方向感、修正能力和續航力。

一個孩子真正成熟的表現,是在沒有人提醒、沒有立即回饋、沒有標準答案的環境裡,仍能維持方向、修正路線、承擔後果。

研究也提醒我們,對語言模型而言,例子的影響往往不小於規則。放回家庭,父母真正傳遞的價值觀,不只在說了什麼,也在如何處理壓力、失敗、金錢、時間與人際關係。你獎勵什麼,決定孩子優化什麼;你示範什麼,決定他模仿什麼。

AI agent和孩子最根本的不同是,前者不需要決定自己的目標函數,目標由外部給定;孩子最後卻得接管自己的目標函數,決定自己在乎什麼、要往哪裡走、什麼算成功、什麼值得放棄。

對人來說,目標本身就是要走的路。孩子需要在家庭、學校與社會塞進他心裡的目標之中,慢慢辨認哪些值得留下、哪些需要改寫、哪些從來不是他自己的。

而父母其實也是被設計的。我們身上的隱性獎勵函數,同樣來自上一代、社會、經濟現實與時代壓力。覺察是起點,不是終點。我們能做的,只是在可控制的範圍內,盡量讓孩子看到的世界,不完全等於那個更大的結構。

最後要交還的,是孩子自己的人生

這些AI agent研究提醒我們,教育也可以被視為一個系統設計問題。

一個人如何接收回饋,決定他能不能把失敗轉成能力;如何理解獎勵,決定他會優化什麼、忽略什麼;如何累積技能與經驗,決定他能不能在沒有人指揮時主動行動;能否在長任務裡維持方向、接管自己的目標,則決定他會不會只是很有效率的完成別人交付的任務。

這些問題放在AI身上是工程問題,放在人身上就是教育問題。最後要問的是:我們設計的系統,到底在訓練什麼?

借這套語言重新審視教育,是一件不太舒服的事。起初我們以為自己是在教孩子怎麼走,後來才發現,真正困難的是接受他會走向一個我們沒有設計過的地方。

人最可怕的失敗,不一定是沒有達成目標。有時候,是很有效率的達成了一個不值得的目標。AI agent不會因此受傷,因為它不需要擁有自己的人生。但孩子會,因為他們需要。

*本文獲得「Vincent Cheng-Wen Yu」授權轉載,原文:孩子最後學會的,是我們真正獎勵的東西:AI agent 研究給教育的一面鏡子

責任編輯:徐惠琬
核稿編輯:倪旻勤