研究:ChatGPT 偽造引用超過一半的時間
研究指出,ChatGPT 引用錯誤率超過一半
迪肯大學的新研究表明,ChatGPT 有超過一半的時間會做出錯誤或不準確的引用。這項研究揭示了聊天機器人在學術領域的不足。
為了開展這項研究,研究人員聚焦于三種不同的精神疾病:重度抑郁障礙、暴食障礙和身體畸形障礙。
信息要么是誤導性的,要么完全是捏造的
ChatGPT在該研究中共生成了176次引用。其中近五分之一(19.9%)被發現完全是偽造的。在剩余的141條真實引用中,有相當一部分(45.4%)存在不準確之處,包括錯誤的出版日期、頁碼或數字對象標識符(DOI)不準確。
令人震驚的是,ChatGPT僅有77次被發現既真實又準確,約占43.8%。換句話說,56.2%的整體引用是捏造或包含錯誤。
這些錯誤并不總是顯而易見。例如,當ChatGPT為偽造引用提供DOI時(超過94%的情況),64%的示例鏈接到了完全無關主題的研究論文。換句話說,讀者只有點擊到鏈接的論文時才會發現錯誤。而剩余36%的假DOI則完全無效。
人工智能尚未適合學術研究
這項研究應當讓全球學者深思。包括ChatGPT、Gemini以及全新的Claude生命科學在內的人工智能工具,被譽為節省時間和自動化的寶貴工具乏味研究過程的一部分。然而,迪肯大學的研究似乎對這一承諾澆上了冷水。
研究人員呼吁“謹慎的提示設計,嚴格的人工驗證......以及加強期刊和機構的保障措施,以保護研究誠信。”事實上,他們的發現在學術研究領域乃至更廣泛的領域都應當警示。
在短時間內,人工智能顛覆了世界。幾乎每周都有另一家公司裁員,轉而采用自動化,同時越來越多的證據表明企業正在利用人工智能徹底改變他們的工作方式。然而,企業應當意識到,未能充分考慮其采用策略可能導致AI債務的昂貴積累。
迪肯大學的科學家讓聊天機器人撰寫六篇關于所選心理健康主題的文獻綜述,這些主題在公眾理解和研究量上各不相同。例如,抑郁癥擁有大量研究成果,而身體變形障礙則較少被充分理解。











評論