Med-Eval 是一个全球性、多维度的医学大语言模型测评基准,旨在推动医学领域的技术进步和人类医学的发展,以满足不断增长的信息处理和医疗需求。它试图为医学大模型的研究、应用和创新提供资源和指导。
Med-Eval的创建是为了满足当今医学领域对自然语言处理和人工智能技术的迫切需求。在医学领域,信息爆炸性增长,大数据和临床文档的数量呈指数级增长,因此需要强大的语言模型来处理和分析这些信息。
同时,Med-Eval的目标是为医疗社区提供一套全面、可靠的工具,以评估和比较不同医学大语言模型的性能。这些模型的成功应用将直接促进了现代临床医疗的进步,为医疗专业人员提供了更多的资源和支持,以更准确、更高效地诊断疾病和提供个性化的治疗方案。
此外,医学大模型的应用也将有助于提高患者的健康护理体验,使他们能够更好地理解和管理自己的健康状况,从而改善了整个医疗体系的质量和效率。因此,Med-Eval不仅是为了科学研究和技术进步,还会在改善医疗实践和服务患者方面发挥有效作用。
Med-Eval具有如下特点:
- 全球覆盖: Med-Eval不仅关注一种语言或地区的医学模型,它致力于全球范围内的医学大语言模型。它汇总了来自世界各地的医学大模型,从而确保覆盖不同语言和文化背景的医学知识。
- 综合性评估: Med-Eval采用详尽的测试方法,包括语言理解、文本生成、信息提取等多个方面的评估,以确保对医学大语言模型的性能有全面而深入的了解。这有助于识别每个模型在不同任务和领域中的强项和弱点。
- 模型生态的构建: 通过比较和评估各种医学大语言模型,Med-Eval的目标之一是帮助构建一个更加强大和多样化的医学大模型生态系统。这将有助于医学领域的研究、临床实践和医疗决策制定,为人类医学的进步提供有力支持。
- 群体智能和医学便利: Med-Eval不仅仅关注模型的性能,还强调了医学大模型在促进人类医学便利和进步方面的潜力。通过整合智能的医学大模型,医疗专业人员可以更轻松地获取信息、做出决策,并提供更好的患者护理。
MedEval 主要由如下几部分构成:
- 模型榜单:
- 通用大模型榜单:此部分列出了各种通用自然语言处理大语言模型,这些模型不仅在通用NLP任务中表现出色,还在医学领域有潜力应用。
- 医学大模型榜单:这个榜单汇总了专门用于医学领域的大语言模型。这些模型针对医学数据和任务进行了优化,以提供更准确的结果。
- 数据集榜单:
- 医学大模型用知识库榜单:此部分列出了在医学大语言模型的训练和评估中常用的知识库和数据资源。这些知识库包含了医学领域的关键信息,可用于提高模型的性能。
- 医学大模型训练用语料库榜单:这个榜单包括了在训练医学大语言模型时使用的语料库和数据集。这些数据集是为了训练模型以适应医学文本和术语。
- 测评工具榜单:
- 通用大模型测评工具榜单:在这里,列出了用于评估通用自然语言处理大语言模型性能的各种测评工具,例如文本分类、语言生成等。
- Med-Eval测评方法:
- 这一部分详细描述了MedEval所采用的测评方法和标准。这包括用于评估模型性能的指标、评估任务的定义以及评估过程的步骤。
- 医学大模型适用场景榜单:
- 此部分提供了医学大语言模型在不同医学应用场景中的适用性评估。这有助于医疗专业人员了解何时以及如何使用这些模型来解决特定的医学问题。
此项目中的代码(训练、服务和评估)主要是为下面的论文开发或派生的。 如果您觉得有帮助,请引用它。我们还计划将更多的研究添加到这个项目中。
@misc{
title={Med-Eval: Benchmarks for the Medical Large Language Model },
author={Jinhua Du and Jingyi Ren and Xinyi Li and Tianying Tang and Yanuo Zhou and Feng Qiu},
year={2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/dujh22/Med-Eval}}
}
该项目由清华大学OpenDE团队发布。 对Med-Eval有任何疑问或者需潜在的合作,请联系[email protected]。