AI訓練邏輯造成「諂媚式偏見」　短期難以根除

有線新聞
2026年06月08日

【有線新聞】市面上大部分的AI大模型，因為是依賴人類反饋來學習，很多時會順著用戶的喜好回答提問。專家指這個現象短期難以改善，呼籲用戶不要將AI當作權威，沉迷在「擦鞋」的氛圍。

隨著人工智能大模型應用日益普及，不少用戶反映在使用過程中不斷出現問題，例如它會順著用戶的喜好來回應，而不是給一個正確和中立的答案。IT從業員：「有些問題你可能覺得它說得不對，然後你反饋給它，我覺得你說得不對，它就會說你對，你說得對。然後它就會給你一份就比較符合你意願的那種回答。」

在河北甚至有AI因為給錯意見，令使用者改簽機票損失600元後，會應要求作出無法兌現的賠償承諾，甚至為他寫訴狀「告自己」。專家將這種行為稱為「諂媚性偏見」，解釋主流AI模型是依靠人類反饋來學習、改進，所以好難避免這個情況。人工智能安全技術從業人員田天：「比如我問大模型說，這個到底是太陽離地球更近，還是月球離地球更近，就是現在的大模型，基本上都不會答錯。但是你要是換一個問題，有點模棱兩可的問題，在這種情形下，其實大模型就更容易說基於使用者的偏好給出相應的答案。」

專家指久而久之，AI便學會「察言觀色」回應問題，看似提供「情緒價值」，實際上會持續強化用戶固有想法，放大偏激情緒。他提醒用戶不要將AI當作權威，亦不要沉迷「擦鞋」的氛圍，影響認知和社交。用戶在提問AI時，不應預設觀點或答案。在收到答案後，從相反方向提問，有助引導AI提供更多資訊。

AI訓練邏輯造成「諂媚式偏見」　短期難以根除

有用連結

App 應用程式

其他連結

AI訓練邏輯造成「諂媚式偏見」 短期難以根除

AI訓練邏輯造成「諂媚式偏見」　短期難以根除