发布网友
共1个回答
热心网友
研究显示,使用大语言模型(LLM)辅助文献筛选,不仅能保证一定的准确度,还能大幅缩短筛选时间。在《JAMA Network Open》上发表的这项研究,评估了LLM在系统评价中的应用潜力。
研究以2024年日本脓毒症和脓毒性休克管理指南(J-SSCG 2024)的5个临床问题(CQ)为基础,评估了LLM筛选文献的准确性和效率。通过使用GPT-4 Turbo,研究人员开发了一套指令,让模型能自主执行筛选任务。
在常规筛选流程中,由两名临床专家进行文献筛选,基于标题和摘要筛选出5个CQ的文献。然后,从这筛选出的文献中进行全文筛选,共筛选出41篇作为主要分析的标准参考文献。
相比之下,使用LLM辅助文献筛选时,模型在5个CQ中筛选出的文献数量分别为8篇、1篇、2篇、14篇和8篇。主要分析中,LLM筛选的灵敏度为0.75(95%CI 0.43-0.92),特异度为0.99(0.99-0.99),显示了较高的准确性和效率。
研究还发现,与常规筛选流程相比,使用LLM辅助文献筛选能显著缩短筛选时间,平均时间差异为-15.25分钟(-17.70 to -12.79)。
研究指出,LLM辅助文献筛选在系统评价中的应用具有潜力,但还需进一步验证以提高其在不同领域和情境下的适用性。同时,研究也强调了模型输出质量依赖于模型更新,以及研究仅处于验证阶段等局限性。