AI论文速读 - LLM幻觉问题仍严重,且将长期存在
最近的一项研究对十多个流行的AI模型从幻觉问题方面进行了评估,引入了一套名为WildHallucinations事实性评估基准来更全面地涵盖多样化领域。

主要观点总结如下:
幻觉普遍存在:即使是最先进的模型,也只能在约35%的时间内生成完全无幻觉的文本!这意味着在使用AI生成的内容时,用户需要保持警惕并进行事实核查;
批注:“幻觉”其实可以看成是LLM的天然特性,因为正是靠幻想,LLM才能产生这些全新的文章,所以我也觉得没有必要对大模型幻觉过于苛刻。同时,正如最近看到的一段Aidan Gomez(Transformer作者之一)的采访所说 - “But we exist in a world with humans and humans hallucinate constantly. We get stuff wrong, we misremember things. And so we exist in a world that’s robust to error.”

