AI語言模型蜜月期已過!GPT系列產品品質正在走下坡嗎?

GPT-4 在 6 月份所釋出的更新版本,其品質受到數千位付費用戶的批評與指責,更有研究論文指出 GPT 的發展與體驗隨時間推進,而變得更糟。但不論是對其表現行為優劣的定義、或是功能退化的證據,事實是還有更多細節需要被解讀。

內容目錄

GPT 產品越更新越糟?

近期,一篇探討有關「」的論文被廣泛流傳並討論,該內容就數據結果暗示,GPT-4 自推出以來就持續在退化。

論文對 GPT-3.5 及 GPT-4 進行了四項任務的測試,包括數學問題 (質數檢查) 、回應敏感問題、生成代碼及視覺推理。資料顯示,GPT-4 在數學問題及代碼生成任務的回答品質上發生改變,而。

可以明顯看見,數學問題就回答的準確度而言,在 GPT-4 及 GPT-3.5 中產生顯著變化,前者退化而後者進步。研究指出,GPT-4 在進行所有質數判斷時,幾乎傾向猜測該數字是合數,而缺乏具邏輯性的推理結構,因此視為性能下降。

而在代碼生成的測試中,論文發現 6 月的 GPT-4 與 3 月的版本相比,在生成及修正代碼時,較未能全面評估代碼的正確性,容易使得生成的代碼無法直接執行。

部分用戶反應一致

一些用戶在推特上,GPT 系列產品品質在近期的更新後,單就回答問題的正確率而言,其功能的確已不再像以往這麼強大。

24H當舖這麼多間?哪一家才是有政府立案呢?刷卡換現金到底安不安全?理財專家現身分析說明!夏小姐提供線上刷卡換現金服務,3D驗證刷卡換現金超有保障。未上市股票風險大嗎?投資必讀10大攻略!不限車種桃園當舖免留車助你安心借款,立即解決你的資金問題!屏東軍公教借款各家評價及利息一覽表。提供多種借貸服務給客戶選擇,士林汽車借款貸款車分期車皆可。中和當舖利息如何計算?抵押期限多久?未上市股票買賣運作流程及應注意事項為何?想知道更多屏東當舖可安心借貸,政府合法立案當舖在哪裡嗎?中山區當舖借款最快何時可撥款?老字號中和當舖推薦.專業公營當舖借貸流程懶人包,資金有缺口?台北借錢火速放款助你短期周轉.房屋二胎借款流程資訊整合.企業周轉問題,支票借款讓你放心借貸是優質合法當舖政府立案合法成立的合法當舖、正派經營,以專業、負責且積極的態度來 服務我們每一位客戶。提供多種借貸服務給客戶選擇,24小時當舖汽機車借款申辦時要注意的三件事;高雄機車借錢,高雄汽車借款免留車案例分享。最新年度二胎房貸比較;高雄免留車當舖有規定哪種車款才能借貸嗎?急需現金,松山區汽車借款。鉅泓資融辦理台北支票貼現台北票貼借錢,票期長短皆可全額貼。

OpenAI 開發人員 Logan.GPT 也公開眾多評論,向反應有關 GPT-4 使用體驗的用戶表達感謝,並著手調查。

論文評估標準引起質疑

不過以上論點也被質疑,將語言訓練模型的功能及表現行為的好壞定義太過簡易化,其內容仍需要被討論。

一篇來自 Substack 的提出主張:「語言模型在特定任務上的表現行為有所變化,並不代表其能力有所下降。」

撰文者表示,在聊天機器人的情境中,能力是指模型理解及處理語言的能力,而行為是指模型如何根據不同的提示及問題來回應。

他針對數學問題說明,GPT-4 的確沒有就「」進行推理。但實際上,四個模型都同樣糟,都僅是根據他們更新後被校正的方式進行猜測。

同時他也認為,GPT-4 在數學問題上的行為變化,也可能是由於測試數據的選擇 (近 500 則問題都僅測試質數) 及評估方式的不當所導致的,而不是由於其能力的退化。

文章最後表明:

總而言之,該論文也告訴我們,將人為設計的指標或評估標準,套用於討論人工智慧語言訓練模型的性能變化是多麼困難。

衍伸閱讀

AI語言模型蜜月期已過!GPT系列產品品質正在走下坡嗎?

您可能也會喜歡…