GOT-baidu09OCR2.0 – 开源的端到端OCR模型，多语言多模态识别，多样化输入输出

baidu09_com 2025-08-29 42 0

GOT-OCR 2.0是一种先进的光学字符识别（OCR）模型，推动OCR技术进入2.0时代。GOT-OCR 2.0端到端的模型由高压缩编码器和长上下文解码器组成，能处理包括文本、数学公式、分子式、图表、乐谱和几何图形在内的多种光学字符。GOT-OCR 2.0支持多种语言，尤其是中文和英文，能输出多种格式化结果，如Markdown和LaTeX。模型具备交互式OCR功能，包括区域级识别和动态分辨率策略、多页OCR技术，适用于高分辨率图像和批量文档处理。GOT-OCR 2.0具有580M参数，模型尺寸为1.43GB，提供精准、高效的OCR解决方案。