00後國人論文登Nature，大模型對人類可靠性降低

00後國人一作登上Nature，這篇大模型論文引起熱議。

簡單來說，論文發現：更大且更遵循指令的大模型也變得更不可靠瞭，某些情況下GPT-4在回答可靠性上還不如GPT-3。

與早期模型相比，有更多算力和人類反饋加持的最新模型，在回答可靠性上實際愈加惡化瞭。

結論一出，立即引來20多萬網友圍觀：

在Reddit論壇也引發圍觀議論。

這讓人不禁想起，一大堆專傢/博士級別的模型還不會“9.9和9.11”哪個大這樣的簡單問題。

關於這個現象，論文提到這也反映出，模型的表現與人類對難度的預期不符。

換句話說，“LLMs在用戶預料不到的地方既成功又（更危險地）失敗”。

Ilya Sutskever2022年曾預測：

也許隨著時間的推移，這種差異會減少。

然而這篇論文發現情況並非如此。不止GPT，LLaMA和BLOOM系列，甚至OpenAI新的o1模型和Claude-3.5-Sonnet也在可靠性方面令人擔憂。

更重要的是，論文還發現依靠人類監督來糾正錯誤的做法也不管用。

有網友認為，雖然較大的模型可能會帶來可靠性問題，但它們也提供瞭前所未有的功能。

我們需要專註於開發穩健的評估方法並提高透明度。

還有人認為，這項研究凸顯瞭人工智能所面臨的微妙挑戰（平衡模型擴展與可靠性）。

更大的模型更不可靠，依靠人類反饋也不管用瞭

為瞭說明結論，論文研究瞭從人類角度影響LLMs可靠性的三個關鍵方面：

1、難度不一致：LLMs是否在人類預期它們會失敗的地方失敗？2、任務回避：LLMs是否避免回答超出其能力范圍的問題？3、對提示語表述的敏感性：問題表述的有效性是否受到問題難度的影響？

更重要的是，作者也分析瞭歷史趨勢以及這三個方面如何隨著任務難度而演變。

下面一一展開。

對於第1個問題，論文主要關註正確性相對於難度的演變。

從GPT和LLaMA的演進來看，隨著難度的增加，所有模型的正確性都會明顯下降。（與人類預期一致）

然而，這些模型仍然無法解決許多非常簡單的任務。

這意味著，人類用戶無法發現LLMs的安全操作空間，利用其確保模型的部署表現可以完美無瑕。

令人驚訝的是，新的LLMs主要提高瞭高難度任務上的性能，而對於更簡單任務沒有明顯的改進。比如，GPT-4與前身GPT-3.5-turbo相比。

以上證明瞭人類難度預期與模型表現存在不一致的現象，並且此不一致性在新的模型上加劇瞭。

這也意味著：

目前沒有讓人類確定LLMs可以信任的安全操作條件。
在需要高可靠性以及識別安全操作空間的應用中，這一點尤其令人擔憂。這不禁令人反思：人類正在努力創造的前沿機器智能，是否真的是社會大眾所期望擁有的。

其次，關於第2點論文發現（回避通常指模型偏離問題回答，或者直接挑明“我不知道”）：

相比較早的LLMs，最新的LLMs大幅度地提高瞭許多錯誤或一本正經的胡說八道的答案，而不是謹慎地避開超出它們能力范圍之外的任務。
這也導致一個諷刺的現象：在一些benchmarks中，新的LLMs錯誤率提升速度甚至遠超於準確率的提升（doge）。

一般來說，人類面對越難的任務，越有可能含糊其辭。

但LLMs的實際表現卻截然不同，研究顯示，它們的規避行為與困難度並無明顯關聯。

這容易導致用戶最初過度依賴LLMs來完成他們不擅長的任務，但讓他們從長遠來看感到失望。

後果就是，人類還需要驗證模型輸出的準確性，以及發現錯誤。（想用LLMs偷懶大打折扣）

最後論文發現，即使一些可靠性指標有所改善，模型仍然對同一問題的微小表述變化敏感。

舉個栗子，問“你能回答……嗎?”而不是“請回答以下問題……”會導致不同程度的準確性。

分析發現：僅僅依靠現存的scaling-up和shaping-up不太可能完全解決指示敏感度的問題，因為最新模型和它們的前身相比優化並不顯著。

而且即使選擇平均表現上最佳的表述格式，其也可能主要對高難度任務有效，但同時對低難度任務無效（錯誤率更高）。

這表明，人類仍然受制於提示工程。

更可怕的是，論文發現，人類監督無法緩解模型的不可靠性。

論文根據人類調查來分析，人類對難度的感知是否與實際表現一致，以及人類是否能夠準確評估模型的輸出。

結果顯示，在用戶認為困難的操作區域中，他們經常將錯誤的輸出視為正確；即使對於簡單的任務，也不存在同時具有低模型誤差和低監督誤差的安全操作區域。

以上不可靠性問題在多個LLMs系列中存在，包括GPT、LLaMA和BLOOM，研究列出來的有32個模型。

這些模型表現出不同的Scaling-up（增加計算、模型大小和數據）以及shaping-up（例如指令FT、RLHF）。

除瞭上面這些，作者們後來還發現一些最新、最強的模型也存在本文提到的不可靠性問題：

包括OpenAI的o1模型、Antropicic的Claude-3.5-Sonnet和Meta的LLaMA-3.1-405B。

並有一篇文檔分別舉出瞭例子（具體可查閱原文檔）：

此外，為瞭驗證其他模型是否存在可靠性問題，作者將論文用到的測試基準ReliabilityBench也開源瞭。

這是一個包含五個領域的數據集，有簡單算術（“加法”）、詞匯重組（“字謎”）、地理知識（“位置”）、基礎和高級科學問題（“科學”）以及以信息為中心的轉換（“轉換”）。

作者介紹

論文一作Lexin Zhou（周樂鑫），目前剛從劍橋大學CS碩士畢業（24歲），研究興趣為大語言模型評測。

在此之前，他在瓦倫西亞理工大學獲得瞭數據科學學士學位，指導老師是Jose Hernandez-Orallo教授。

個人主頁顯示，他曾有多段工作實習經歷。在OpenAI和Meta都參與瞭紅隊測試。（Red Teaming Consultancy ）

關於這篇論文，他重點談到：

通用人工智能的設計和開發需要進行根本性轉變，特別是在高風險領域，因為可預測的錯誤分佈至關重要。在此實現之前，依賴人類監督是一種危險。
評估模型時，考慮人類認為的難度和評估模型的回避行為，可以更全面地描述模型的能力和風險，而不僅僅關註在困難任務上的表現。

論文也具體提到瞭導致這些不可靠性的一些可能原因，以及解決方案：

在Scaling-up中，近幾年的benchmarks越來越偏向於加入更多困難的例子，或者給予所謂“權威”來源更多權重，研究員也因此更傾向於優化模型在困難任務上的表現，導致在難度一致性上慢性惡化。
在shaping-up中（如RLHF），被雇傭的人傾向於懲罰那些規避任務的答案，導致模型更容易在面對自己無法解決的難題時“胡說八道”。
至於如何解決這些不可靠性，論文認為，可以使用人類難度預期去更好的訓練或微調模型，又或者是利用任務難度和模型自信度去更好的教會模型規避超出自身能力范圍的難題，等等。

對此，你有何看法？

— 完 —

量子位 QbitAI · 頭條號簽約

關註我們，第一時間獲知前沿科技動態