
文章圖片

文章圖片

文章圖片

文章圖片
快科技9月22日消息 , 今日 , 百度智能云千帆正式推出全新視覺理解模型——Qianfan-VL , 并全面開源 。
即日起至10月10日 , 用戶可在百度智能云千帆平臺免費體驗8B、70B模型 。
據介紹 , Qianfan-VL系列模型包含3B、8B和70B三個尺寸版本 , 是面向企業級多模態應用場景 , 進行了深度優化的視覺理解大模型 。
Qianfan-VL不僅具備出色的基礎通用能力 , 還針對產業落地中的高頻需求 , 如OCR和教育垂直場景做了專項強化 。
據悉 , 該系列模型基于開源模型進行開發 , 并在百度自研昆侖芯 P800上完成全流程計算任務 , 其提供了強大的算力支撐 , 同時支持單任務5000卡規模的并行計算 。
這一結合不僅優化了模型計算的效率 , 更使得模型在性能表現上達到了新的高度 , 在通用和垂類任務評測中展現出SOTA水平 。
Qianfan-VL模型具備三大特點:
多尺寸模型滿足不同場景需求:提供3B、8B、70B三種規格的模型 , 讓不同規模的企業和開發者都能找到合適的解決方案 。
提供思考推理能力:8B和70B模型支持通過特殊token激活思維鏈能力 , 覆蓋復雜圖表理解、視覺推理、數學解題等多種場景 。
OCR與文檔理解能力增強:主打OCR全場景識別和復雜版面文檔理解兩大特色能力 , 在多項基準測試中表現優異 , 為企業級應用提供高精度的視覺理解解決方案 。
在通用能力基準測試中 , Qianfan-VL系列模型(3B、8B、70B)展現出顯著核心優勢 。
從視覺理解到專業領域問答 , 模型性能隨參數規模增大提升顯著 , 體現出很好的Scaling趨勢 。
此外 , Qianfan-VL系列模型(3B、8B、70B)在OCR與文檔理解領域盡顯卓越實力 。
一方面 , 具備OCR全場景識別能力 , 能精準識別手寫體、數學公式、自然場景文字 , 還可對卡證票據信息進行結構化提取 。
另一方面 , 復雜版面文檔理解能力突出 , 可自動分析版面元素 , 精準解析表格、圖表 , 實現文檔智能問答與結構化解析 。
從基準測試表現看 , 在OCRBench、各類專業測試中 , 相較于主流模型 , 成績優異且隨參數規模提升持續向好 。
而8B和70B模型 , 支持通過特殊token激活思維鏈能力 , 能覆蓋復雜圖表理解、視覺推理、數學解題等多類場景 。
從數學解題基準測試表現看 , 在MathVista-mini、MathVision等多項測試中 , 相較于主流模型 , 成績優異且隨參數規模提升持續向好 。
值得注意的是 , 官方還演示了一些模型應用的案例 。
如OCR識別場景:
如數學推理場景:
如文檔理解場景:
除上述場景應用案例外 , Qianfan-VL還可應用在圖表分析、視頻理解等場景中 , 均呈現出卓越的模型效果 。
【全自研芯片計算!百度智能云Qianfan-VL系列模型重磅開源】Qianfan-VL系列模型的開源 , 對百度智能云千帆來說 , 更像是“把模型放進真實生產力場景”的第一小步;未來 , 百度智能云會不斷推出全新的產業級模型 , 全方位助力AI技術在各行業落地 。
推薦閱讀
- 不黑不吹,我們已能制造全球90%的芯片了,不用擔心
- iPhone18更香?蘋果A20芯片將首發2nm工藝
- 騰訊、阿里說到做到,不買英偉達H20,支持國產AI芯片
- 芯片領域的摩爾定律已死,但臺積電們,在想方設法讓它活著
- 傳三星已與IBM簽訂Power11芯片代工訂單
- 阿里在芯片領域,真被低估了,未來或成“國產芯片一哥”?
- HBM4時代來了,內存芯片升溫
- 國芯科技成功推動實現AIMCU芯片在新一代商用空調領域的應用
- 三星證明實力!與IBM達成Power11芯片代工協議
- 德明利:SATA SSD及新一代自研SD6.0主控芯片均已實現批量銷售
