LangExtract 是谷歌开源的用在从非结构化文本中提取结构化信息的 Python 库。LangExtract 用大型语言模型(LLM),自动处理临床笔记、报告等材料,识别并组织关键细节,确保提取的数据与源文本精确对应。LangExtract支持多种 LLM,包括云托管模型(如 Google Gemini)和本地开源模型(通过 Ollama 接口)。LangExtract 无需模型微调,适用任何领域,用少量示例定义提取任务,大大降低使用门槛。

LangExtract – 谷歌开源的结构化信息提取工具  第1张
(图片来源网络,侵删)
LangExtract – 谷歌开源的结构化信息提取工具  第2张
(图片来源网络,侵删)