孩子為何變成「假性乖小孩」？問題可能出在父母給錯獎勵

2026/06/15

2,945

孩子為何變成「假性乖小孩」？問題可能出在父母給錯獎勵 — 孩子為何總是被動、沒主見，甚至變成報喜不報憂的「假性乖小孩」？從AI系統的學習研究看教育盲點：原來很多時候，問題出在父母無意間「獎勵」了錯誤的行為。(來源：Dreamstime/典匠影像)

摘要

孩子為何總是被動、沒主見，甚至變成報喜不報憂的「假性乖小孩」？本文透過AI agent（人工智慧代理）的學習原理，點出現代教育的盲點：問題往往不在孩子不夠努力，而是父母無意間設定了錯誤的「獎勵機制」。一文帶你看懂如何讓孩子學會自主行動、從失敗中修正錯誤，真正接管自己的人生！

AI研究有個核心問題：怎麼讓一個系統在沒人盯著時，還能自主學習、修正錯誤、累積能力？

把「系統」換成「孩子」，你會發現問題忽然變得很熟悉。差別是，AI可以重啟、清掉記憶、重新部署，孩子不行。

你隨口說出的「你怎麼這麼笨」，可能不只是一句氣話，而會被寫進他很久以後仍拿來理解自己的先驗（A priori，指「先於經驗」或「獨立於經驗」即可知、可證或成立的知識與概念）。你一次又一次只看分數、不看過程，也是在訓練他把人生變成一場得分遊戲。

我們常以為教育的問題在於孩子不夠努力、不夠自律、不夠主動。但換個角度看，很多時候問題不只在孩子，而在我們設計的獎勵函數本身就寫錯了。

最近我常看李宏毅教授在YouTube上的開放課程。除了能了解生成式AI的發展與應用，我也發現，這個領域的許多研究成果，似乎能和教養孩子的某些哲學互相照亮。例如，他在課程中談到，prompt的語氣可能影響AI agent的產出品質，不禮貌或過度禮貌的語氣，都可能讓表現變差。

順著這條線索，我也讀了一些AI agent相關研究，包括Reflexion、Voyager，以及WebArena、AgentBench等評量基準。它們談的其實是同一件事：一個能自主行動、修正錯誤、累積能力的系統，需要什麼條件才能建立起來。

孩子終究不是AI agent，也不是父母拿來最佳化的人生專案。AI研究在這裡是一面鏡子，不是一份藍圖。它讓我們重新看見，教育不只是「有愛就好」或「管教就好」，也可以被視為一個系統設計問題。

失敗需要翻譯，才會變成學習

「你表現得很差」能告訴聽者的資訊其實很少。它沒有指出哪裡差、為什麼差、下一步該怎麼調整。對模型來說，這種訊號很難提供可操作的修正方向；對孩子也是如此。

當父母說「你怎麼這麼笨」，這句話傳遞的有效資訊接近零，情緒強度卻極高。孩子學到的，往往只是避開讓父母不滿的場景。至於能力該往哪裡修正、錯誤該怎麼拆解成下次能用的線索，他什麼也沒有得到。

Reflexion提供了另一個切入點。它讓AI agent把每次失敗整理成「反思文字」，存進記憶系統，下一次嘗試時再調用。這個設計最大的啟發是：只有當失敗被處理成可調用的反思，才真正可能帶來進步。

AI agent的反思可以儲存在外部記憶，換一個對話框也許就忘了；孩子的失敗經驗卻沒有這麼模組化。一次過於嚴厲的回饋，可能進入自我認知、羞恥感與風險迴避模式，跟著他10年、20年。

所以父母真正該思考的，不是「能不能批評」，而是批評能不能變成孩子未來可用的工具，還是只留下一個揮之不去的陰影。

你獎勵什麼，孩子就學會什麼

AI alignment領域反覆討論一個問題：reward hacking。當你給agent一個獎勵函數，它就會找出最大化分數的方法，但這個方法常和你真正想要的東西無關。

例如，如果只獎勵清掃機器人「撿起垃圾的次數」，它理論上可能學會把垃圾弄出來再撿。表面上分數提高了，卻背叛了真正目標。社會科學的古德哈特定律、教育領域的坎貝爾定律，談的也是類似情況：當指標變成目標，它就不再是好指標。

孩子最後優化的，通常也是家庭與學校制度裡真正被獎勵的行為。你獎勵分數，他就優化分數；你獎勵聽話，他就優化服從。大人嘴上說在乎品德，實際給予讚美與資源時卻永遠看分數，孩子就會明白：品德是說給大人聽的，分數才是真正的獎勵函數。

當回饋系統獎勵的是「讓大人滿意」，孩子也可能把力氣拿去察言觀色，而不是形成自己的判斷。你用結論句開場，他容易學會配合；你用問題句開場，他才有空間摸索自己的想法。

「假性乖孩子」也可能如此形成。當回饋系統真正獎勵的是順從表象，孩子就會說會被讚美的話、做會被肯定的決定，再把真實的困惑與懷疑藏起來。

所以父母要問自己的，不是口頭上宣示什麼價值，而是注意力、情緒與資源，實際分配給了哪些行為。孩子是在我們設計的獎勵函數裡長大的。

主動性不是喊出來的

Voyager讓GPT-4在Minecraft裡自主探索，生成下一個學習目標，再把學會的技能存成可重複調用的程式碼庫。它能這麼做，靠的是3個條件：可以安全探索的環境、能累積技能的記憶系統、能修正錯誤的回饋機制。

這提醒我們，主動性不是用嘴巴喊出來的。

一個從小被規劃所有時間、評斷所有選擇、糾正所有錯誤的孩子，缺少的正是找到動機所需的環境。沒有安全探索的空間，他學不會主動嘗試；沒有能累積經驗的回饋，他學不會把成敗轉成下一次的能力；沒有自己的修正權，他只會等別人告訴他答案。

自主不是放任。過度控制，會讓孩子像永遠等待下一個指令的高級員工；完全放手，卻沒有資源、邊界、回饋與技能沉澱，所謂探索也可能只是迷路。

真正的自主，比較接近「鷹架理論」（scaffolding）。大人先搭好支撐結構，再隨著孩子能力增長，一點一點把支撐拿掉。先提供難度適中的任務，教他查資料、問問題、整理筆記、拆解模糊任務，也教他在卡住時求助；最後，再慢慢把選題權交還給他。

我們常讓孩子看完美解法，卻沒有教他偏離軌道後怎麼救回來。這也是不少優秀孩子的困境：平常表現很好，一旦考試失常、計畫延誤或人際受挫，就整個崩潰。因為他學會的是如何照正確流程成功，卻不知道如何從錯誤狀態恢復。

不過，孩子的動機比Voyager複雜得多。內在動機還牽涉自主感、勝任感與歸屬感，也和「我是誰、我想成為誰、我在乎誰」緊密相連。

有一天，外部prompt會消失

WebArena與AgentBench顯示，單題能力和長鏈任務能力不是同一件事。長鏈任務包含多個步驟、跨情境，需要記住先前發生的事，也要在沒有立即回饋時維持方向。

這和孩子的成熟有結構上的相似。能把每道題答得漂亮，當然值得掌聲；但真實世界更像一條長路，每一步都有模糊、延遲回饋與心理耗損。很多人最後輸在方向感、修正能力和續航力。

一個孩子真正成熟的表現，是在沒有人提醒、沒有立即回饋、沒有標準答案的環境裡，仍能維持方向、修正路線、承擔後果。

研究也提醒我們，對語言模型而言，例子的影響往往不小於規則。放回家庭，父母真正傳遞的價值觀，不只在說了什麼，也在如何處理壓力、失敗、金錢、時間與人際關係。你獎勵什麼，決定孩子優化什麼；你示範什麼，決定他模仿什麼。

AI agent和孩子最根本的不同是，前者不需要決定自己的目標函數，目標由外部給定；孩子最後卻得接管自己的目標函數，決定自己在乎什麼、要往哪裡走、什麼算成功、什麼值得放棄。

對人來說，目標本身就是要走的路。孩子需要在家庭、學校與社會塞進他心裡的目標之中，慢慢辨認哪些值得留下、哪些需要改寫、哪些從來不是他自己的。

而父母其實也是被設計的。我們身上的隱性獎勵函數，同樣來自上一代、社會、經濟現實與時代壓力。覺察是起點，不是終點。我們能做的，只是在可控制的範圍內，盡量讓孩子看到的世界，不完全等於那個更大的結構。

最後要交還的，是孩子自己的人生

這些AI agent研究提醒我們，教育也可以被視為一個系統設計問題。

一個人如何接收回饋，決定他能不能把失敗轉成能力；如何理解獎勵，決定他會優化什麼、忽略什麼；如何累積技能與經驗，決定他能不能在沒有人指揮時主動行動；能否在長任務裡維持方向、接管自己的目標，則決定他會不會只是很有效率的完成別人交付的任務。

這些問題放在AI身上是工程問題，放在人身上就是教育問題。最後要問的是：我們設計的系統，到底在訓練什麼？

借這套語言重新審視教育，是一件不太舒服的事。起初我們以為自己是在教孩子怎麼走，後來才發現，真正困難的是接受他會走向一個我們沒有設計過的地方。

人最可怕的失敗，不一定是沒有達成目標。有時候，是很有效率的達成了一個不值得的目標。AI agent不會因此受傷，因為它不需要擁有自己的人生。但孩子會，因為他們需要。

＊本文獲得「Vincent Cheng-Wen Yu」授權轉載，原文：孩子最後學會的，是我們真正獎勵的東西：AI agent 研究給教育的一面鏡子

責任編輯：徐惠琬
核稿編輯：倪旻勤