百度全新视觉语言模型闪耀全球,连续多日领跑OCR领域

主页    AI更新快报    百度全新视觉语言模型闪耀全球,连续多日领跑OCR领域

 

 

PaddleOCR - VL 发布情况

在10月16日这个具有重要意义的日子里,百度飞桨(PaddlePaddle)团队正式向全球发布了其最新研发的视觉语言模型——PaddleOCR - VL。此消息一经传出,便在全球OCR(光学字符识别)领域引起了巨大的轰动。

PaddleOCR - VL 性能表现

PaddleOCR - VL模型展现出了卓越的性能。它以0.9B的参数规模,在权威评测OmniDocBench V1.5中取得了92.56分的优异成绩。这一成绩相当亮眼,成功超越了包括DeepSeek - OCR在内的所有主流模型,顺利登顶全球OCR榜单。这不仅体现了该模型在技术上的领先地位,也证明了百度在OCR领域的深厚技术积累。

Huggingface榜单情况

从截至10月21日的情况来看,Huggingface全球模型趋势榜(Trending Models)呈现出了令人瞩目的景象,其前3名均被OCR模型包揽。其中,百度的PaddleOCR - VL稳居榜首,并且已经连续5天保持这一领先位置,成为了当前最受关注的开源OCR模型。在榜单中,紧随其后的是DeepSeek - OCR和NanonetOCR。

PaddleOCR - VL 功能特点

  • 多语言识别:支持109种语言识别,能够精准地解析文本、表格、公式与图表。
  • 语义结构重建:具备文档语义结构重建能力。这意味着它不仅仅是简单地“识字”,还能够深入“读懂”复杂文档的内容。
  • 实用价值高:在科研论文、发票识别、知识抽取等众多领域,PaddleOCR - VL都展现出了极高的实用价值。

业界OCR模型发展逻辑

值得注意的是,DeepSeek团队在其论文中特别致谢了PaddleOCR,并且透露其训练数据部分使用了PaddleOCR进行标注。这一细节揭示了当前业界OCR模型繁荣背后的真实逻辑。百度、DeepSeek与上海AI Lab等机构几乎在同一时间开源OCR模型,其目的并非仅仅是比拼识别性能,更重要的是为大模型训练清洗、标注数据提供基础能力。可以说,这场“OCR军备竞赛”的核心,不仅仅是谁的识别更准确,而是谁能够更快地让AI看懂世界的文字与图像。

2025/10/24 16:22
Browsing amount:0
Collection