Cohere發布企業視覺模型Command A Vision

Cohere發布企業視覺模型Command A Vision
【Cohere發布企業視覺模型Command A Vision】
隨著深度研究功能和其他AI驅動分析的興起 , 越來越多的模型和服務致力于簡化這一流程 , 并能讀取企業實際使用的更多文檔 。
加拿大AI公司Cohere正依靠其模型 , 包括新發布的視覺模型 , 來證明深度研究功能也應該針對企業用例進行優化 。
該公司發布了Command A Vision , 這是一個專門針對企業用例的視覺模型 , 基于其Command A模型構建 。 這個1120億參數的模型能夠\"通過文檔光學字符識別(OCR)和圖像分析 , 從視覺數據中挖掘有價值的洞察 , 并做出高度準確的數據驅動決策\" , 該公司表示 。
\"無論是解讀包含復雜圖表的產品手冊 , 還是分析現實場景照片進行風險檢測 , Command A Vision都能出色應對最具挑戰性的企業視覺任務\" , 該公司在博客文章中說道 。
這意味著Command A Vision能夠讀取和分析企業最常需要的圖像類型:圖表、圖形、示意圖、掃描文檔和PDF 。
由于基于Command A的架構構建 , Command A Vision只需要兩個或更少的GPU , 就像文本模型一樣 。 該視覺模型還保留了Command A的文本能力 , 能夠讀取圖像上的文字并理解至少23種語言 。 Cohere表示 , 與其他模型不同 , Command A Vision降低了企業的總體擁有成本 , 并且完全針對企業的檢索用例進行了優化 。
Cohere如何構建Command A
Cohere表示 , 它采用了Llava架構來構建Command A模型 , 包括視覺模型 。 這種架構將視覺特征轉換為軟視覺Token , 可以分為不同的圖塊 。
這些圖塊被傳遞到Command A文本塔 , \"一個密集的1110億參數文本大語言模型\" , 該公司說 。 \"以這種方式 , 單個圖像最多消耗3328個Token 。 \"
Cohere表示 , 它分三個階段訓練視覺模型:視覺-語言對齊、監督微調(SFT)和帶有人類反饋的強化學習后訓練(RLHF) 。
\"這種方法使圖像編碼器特征能夠映射到語言模型的嵌入空間\" , 該公司說 。 \"相比之下 , 在SFT階段 , 我們在多樣化的指令跟隨多模態任務集上同時訓練視覺編碼器、視覺適配器和語言模型 。 \"
企業AI的可視化
基準測試顯示 , Command A Vision在性能上超越了其他具有類似視覺能力的模型 。
Cohere在九項基準測試中將Command A Vision與OpenAI的GPT 4.1、Meta的Llama 4 Maverick、Mistral的Pixtral Large和Mistral Medium 3進行了比較 。 該公司沒有提及是否測試了針對Mistral專注于OCR的API Mistral OCR 。
Command A Vision在ChartQA、OCRBench、AI2D和TextVQA等測試中得分超過其他模型 。 總體而言 , Command A Vision的平均得分為83.1% , 相比之下GPT 4.1為78.6% , Llama 4 Maverick為80.5% , Mistral Medium 3為78.3% 。
目前大多數大語言模型都是多模態的 , 意味著它們可以生成或理解照片或視頻等視覺媒體 。 然而 , 企業通常使用更多圖形化文檔 , 如圖表和PDF , 因此從這些非結構化數據源中提取信息往往困難重重 。
隨著深度研究的興起 , 引入能夠讀取、分析甚至下載非結構化數據的模型的重要性不斷增長 。
Cohere還表示 , 它正在開放權重系統中提供Command A Vision , 希望那些希望擺脫封閉或專有模型的企業開始使用其產品 。 到目前為止 , 開發者們表現出了一定的興趣 。
Q&A
Q1:Command A Vision是什么?它有什么特殊能力?
A:Command A Vision是Cohere公司發布的1120億參數企業級視覺模型 , 專門針對企業用例設計 。 它能夠通過文檔光學字符識別(OCR)和圖像分析從視覺數據中挖掘有價值的洞察 , 讀取和分析圖表、圖形、示意圖、掃描文檔和PDF等企業常用圖像類型 。
Q2:Command A Vision相比其他模型有什么優勢?
A:Command A Vision只需要兩個或更少的GPU就能運行 , 降低了企業的總體擁有成本 。 在基準測試中 , 它的平均得分達到83.1% , 超過了GPT 4.1的78.6%、Llama 4 Maverick的80.5%等競爭對手 , 并且支持至少23種語言 。
Q3:Command A Vision采用了什么技術架構?
A:Command A Vision采用Llava架構構建 , 將視覺特征轉換為軟視覺Token并分為不同圖塊 , 然后傳遞到1110億參數的文本大語言模型中處理 。 訓練過程分為三個階段:視覺-語言對齊、監督微調和帶有人類反饋的強化學習后訓練 。

    推薦閱讀