LLaVA-baidu09Rad – 微软推出的小型多模态模型，专注于临床放射学报告生成

baidu09_com 2025-08-29 35 0

LLaVA-Rad是微软研究院推出的小型多模态模型，专注于临床放射学报告生成。是LLaVA-Med项目的分支，特别是胸部X光（CXR）成像。基于LLaVA-Med的基础架构和训练方法，针对放射学领域的特定需求进行了优化。通过模块化训练，结合模单态预训练、对齐和微调三个阶段，基于适配器机制将图像等非文本模态嵌入文本空间，实现高效训练和推理。模型基于697,435对放射学图像与报告数据训练，性能卓越，关键指标如ROUGE和-LF1-RadGraph分别提升12.1%和10.1%。LLaVA-Rad设计轻量化，仅需单个V100 GPU即可运行，训练可在一天内完成，适合临床快速部署。配套推出了CheXprompt自动评估指标，用于评分报告的事实正确性。