当前位置: 信息机 >> 信息机优势 >> LLM在放射科学中应用潜力如何数十家研究
机器之心专栏
机器之心编辑部
本论文在全球范围内评估了31个大型语言模型(LLM)在解读放射科报告并从放射学发现中推导出诊断信息(impression)任务上的表现。这是目前已知的对全球LLM用于放射科学自然语言处理(NLP)进行的最全面评估之一。该研究通过在这个关键的放射科NLP任务上对海外和中国研发的主流LLM进行基准测试,填补了该领域目前的知识空白。
近年来,大型语言模型(LLM)在自然语言领域(NLP)掀起了革新的狂潮,在大规模、高质量数据训练的驱动下,LLM在多种领域都展现出卓越的性能。LLMs的崛起不仅让我们重新审视了自然语言的处理方式,更是为多个领域注入了革新的“新鲜血液”。值得注意的是,近期像ChatGPT、BLOOM、Llama这样的LLM正在大量涌现与飞速进化,令人叹为观止。更令人兴奋的是,国内多个优秀模型,如Ziya-LLaMA、ChatGLM、baichuan等,也在LLM的世界舞台上崭露头角。这一潮流不仅见证了LLM不断涌现和更新迭代,还展示了它们在医疗健康领域的巨大潜力。
在这一浪潮中,放射学NLP领域备受瞩目,LLM在这个领域的发展和应用更是已经成为不可忽视的趋势。然而,尽管LLMs发展趋势迅猛,系统性地评估它们在放射科NLP能力上的研究还远远不足,尤其是对来自像中国这样的多语言国家的新兴模型的研究:这些模型在英文和中文(等其它语言)的多语言处理能力方面有独特的优势,但却鲜有深入的科学性能评估研究。在医学和放射学领域,我们正面临着一个亟需填补的知识空白。
因此,我们认为有必要对这些全球性LLMs进行严格且系统性的探索和分析。这不仅有助于更全面、更深入地了解它们的能力和局限性,还能将它们有机地融入全球LLMs的生态系统中之中,从而推进全球医疗领域、放射学领域LLM社区的发展。本研究旨在通过广泛测试全球31个主流LLMs在两个公开放射科数据集(MIMIC-CXR和OpenI)上的性能,验证它们在生成放射学诊断信息(impression)的能力。