新芒xAI 10月17日消息,HuggingFace官网显示,百度昨晚发布的自研多模态文档解析模型PaddleOCR-VL,发布20小时内即登顶HuggingFace Trending全球第一。

据了解,该模型核心参数仅0.9B,轻量高效,能以极低计算开销精准识别文本、手写汉字、表格、公式、图表等复杂元素,支持109种语言。
在权威榜单OmniBenchDoc V1.5中,它以92.6分获综合性能全球第一,四大核心能力全线SOTA,超越GPT-4o等模型,刷新OCR VL模型性能纪录。
作为文心4.5衍生模型,PaddleOCR-VL融合了NaViT动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型,实现精度与效率双突破。
新芒xAI评论:
PaddleOCR-VL的成功,是中国AI在特定应用领域实现全球技术超越的标志。它以极低的0.9B核心参数,却在权威榜单上击败了GPT-4o等巨头,证明了“小模型、大能力”的高效技术路线完全可行。
这一突破为产业界提供了低成本、高性能的多模态文档解析方案。它不仅是百度技术积累的体现,更推动了AI应用向更轻量化、更普适化的方向发展,为AI技术的大规模落地打下了坚实基础,也标志着中国AI技术生态已具备在全球开源社区占据领导地位的能力。