百度全新视觉语言模型闪耀全球，连续多日领跑OCR领域

主页 ꄲ AI更新快报 ꄲ 百度全新视觉语言模型闪耀全球，连续多日领跑OCR领域

PaddleOCR - VL 发布情况

在10月16日这个具有重要意义的日子里，百度飞桨（PaddlePaddle）团队正式向全球发布了其最新研发的视觉语言模型——PaddleOCR - VL。此消息一经传出，便在全球OCR（光学字符识别）领域引起了巨大的轰动。

PaddleOCR - VL 性能表现

PaddleOCR - VL模型展现出了卓越的性能。它以0.9B的参数规模，在权威评测OmniDocBench V1.5中取得了92.56分的优异成绩。这一成绩相当亮眼，成功超越了包括DeepSeek - OCR在内的所有主流模型，顺利登顶全球OCR榜单。这不仅体现了该模型在技术上的领先地位，也证明了百度在OCR领域的深厚技术积累。

Huggingface榜单情况

从截至10月21日的情况来看，Huggingface全球模型趋势榜（Trending Models）呈现出了令人瞩目的景象，其前3名均被OCR模型包揽。其中，百度的PaddleOCR - VL稳居榜首，并且已经连续5天保持这一领先位置，成为了当前最受关注的开源OCR模型。在榜单中，紧随其后的是DeepSeek - OCR和NanonetOCR。

PaddleOCR - VL 功能特点

多语言识别：支持109种语言识别，能够精准地解析文本、表格、公式与图表。
语义结构重建：具备文档语义结构重建能力。这意味着它不仅仅是简单地“识字”，还能够深入“读懂”复杂文档的内容。
实用价值高：在科研论文、发票识别、知识抽取等众多领域，PaddleOCR - VL都展现出了极高的实用价值。

业界OCR模型发展逻辑

值得注意的是，DeepSeek团队在其论文中特别致谢了PaddleOCR，并且透露其训练数据部分使用了PaddleOCR进行标注。这一细节揭示了当前业界OCR模型繁荣背后的真实逻辑。百度、DeepSeek与上海AI Lab等机构几乎在同一时间开源OCR模型，其目的并非仅仅是比拼识别性能，更重要的是为大模型训练清洗、标注数据提供基础能力。可以说，这场“OCR军备竞赛”的核心，不仅仅是谁的识别更准确，而是谁能够更快地让AI看懂世界的文字与图像。

ꂃ前一个：无

ꁹ后一个：无

2025/10/24 16:22

ꄘBrowsing amount：0

Collection