AI訓練邏輯造成「諂媚式偏見」 短期難以根除
【有線新聞】市面上大部分的AI大模型,因為是依賴人類反饋來學習,很多時會順著用戶的喜好回答提問。專家指這個現象短期難以改善,呼籲用戶不要將AI當作權威,沉迷在「擦鞋」的氛圍。
隨著人工智能大模型應用日益普及,不少用戶反映在使用過程中不斷出現問題,例如它會順著用戶的喜好來回應,而不是給一個正確和中立的答案。IT從業員:「有些問題你可能覺得它說得不對,然後你反饋給它,我覺得你說得不對,它就會說你對,你說得對。然後它就會給你一份就比較符合你意願的那種回答。」
在河北甚至有AI因為給錯意見,令使用者改簽機票損失600元後,會應要求作出無法兌現的賠償承諾,甚至為他寫訴狀「告自己」。專家將這種行為稱為「諂媚性偏見」,解釋主流AI模型是依靠人類反饋來學習、改進,所以好難避免這個情況。人工智能安全技術從業人員田天:「比如我問大模型說,這個到底是太陽離地球更近,還是月球離地球更近,就是現在的大模型,基本上都不會答錯。但是你要是換一個問題,有點模棱兩可的問題,在這種情形下,其實大模型就更容易說基於使用者的偏好給出相應的答案。」
專家指久而久之,AI便學會「察言觀色」 回應問題,看似提供「情緒價值」,實際上會持續強化用戶固有想法,放大偏激情緒。他提醒用戶不要將AI當作權威,亦不要沉迷「擦鞋」的氛圍,影響認知和社交。用戶在提問AI時,不應預設觀點或答案。在收到答案後,從相反方向提問,有助引導AI提供更多資訊。