Cohere發布企業視覺模型Command A Vision_庫克

【Cohere發布企業視覺模型Command A Vision】
隨著深度研究功能和其他AI驅動分析的興起，越來越多的模型和服務致力于簡化這一流程，并能讀取企業實際使用的更多文檔。
加拿大AI公司Cohere正依靠其模型，包括新發布的視覺模型，來證明深度研究功能也應該針對企業用例進行優化。
該公司發布了Command A Vision ，這是一個專門針對企業用例的視覺模型，基于其Command A模型構建。這個1120億參數的模型能夠\"通過文檔光學字符識別(OCR)和圖像分析，從視覺數據中挖掘有價值的洞察，并做出高度準確的數據驅動決策\" ，該公司表示。
\"無論是解讀包含復雜圖表的產品手冊，還是分析現實場景照片進行風險檢測， Command A Vision都能出色應對最具挑戰性的企業視覺任務\" ，該公司在博客文章中說道。
這意味著Command A Vision能夠讀取和分析企業最常需要的圖像類型：圖表、圖形、示意圖、掃描文檔和PDF 。
由于基于Command A的架構構建， Command A Vision只需要兩個或更少的GPU ，就像文本模型一樣。該視覺模型還保留了Command A的文本能力，能夠讀取圖像上的文字并理解至少23種語言。 Cohere表示，與其他模型不同， Command A Vision降低了企業的總體擁有成本，并且完全針對企業的檢索用例進行了優化。
Cohere如何構建Command A
Cohere表示，它采用了Llava架構來構建Command A模型，包括視覺模型。這種架構將視覺特征轉換為軟視覺Token ，可以分為不同的圖塊。
這些圖塊被傳遞到Command A文本塔， \"一個密集的1110億參數文本大語言模型\" ，該公司說。 \"以這種方式，單個圖像最多消耗3328個Token 。 \"
Cohere表示，它分三個階段訓練視覺模型：視覺-語言對齊、監督微調(SFT)和帶有人類反饋的強化學習后訓練(RLHF) 。
\"這種方法使圖像編碼器特征能夠映射到語言模型的嵌入空間\" ，該公司說。 \"相比之下，在SFT階段，我們在多樣化的指令跟隨多模態任務集上同時訓練視覺編碼器、視覺適配器和語言模型。 \"
企業AI的可視化
基準測試顯示， Command A Vision在性能上超越了其他具有類似視覺能力的模型。
Cohere在九項基準測試中將Command A Vision與OpenAI的GPT 4.1、Meta的Llama 4 Maverick、Mistral的Pixtral Large和Mistral Medium 3進行了比較。該公司沒有提及是否測試了針對Mistral專注于OCR的API Mistral OCR 。
Command A Vision在ChartQA、OCRBench、AI2D和TextVQA等測試中得分超過其他模型。總體而言， Command A Vision的平均得分為83.1% ，相比之下GPT 4.1為78.6% ， Llama 4 Maverick為80.5% ， Mistral Medium 3為78.3% 。
目前大多數大語言模型都是多模態的，意味著它們可以生成或理解照片或視頻等視覺媒體。然而，企業通常使用更多圖形化文檔，如圖表和PDF ，因此從這些非結構化數據源中提取信息往往困難重重。
隨著深度研究的興起，引入能夠讀取、分析甚至下載非結構化數據的模型的重要性不斷增長。
Cohere還表示，它正在開放權重系統中提供Command A Vision ，希望那些希望擺脫封閉或專有模型的企業開始使用其產品。到目前為止，開發者們表現出了一定的興趣。
Q&A
Q1：Command A Vision是什么？它有什么特殊能力？
A：Command A Vision是Cohere公司發布的1120億參數企業級視覺模型，專門針對企業用例設計。它能夠通過文檔光學字符識別(OCR)和圖像分析從視覺數據中挖掘有價值的洞察，讀取和分析圖表、圖形、示意圖、掃描文檔和PDF等企業常用圖像類型。
Q2：Command A Vision相比其他模型有什么優勢？
A：Command A Vision只需要兩個或更少的GPU就能運行，降低了企業的總體擁有成本。在基準測試中，它的平均得分達到83.1% ，超過了GPT 4.1的78.6%、Llama 4 Maverick的80.5%等競爭對手，并且支持至少23種語言。
Q3：Command A Vision采用了什么技術架構？
A：Command A Vision采用Llava架構構建，將視覺特征轉換為軟視覺Token并分為不同圖塊，然后傳遞到1110億參數的文本大語言模型中處理。訓練過程分為三個階段：視覺-語言對齊、監督微調和帶有人類反饋的強化學習后訓練。

Cohere發布企業視覺模型Command A Vision

推薦閱讀

綠蘿生根粉泡根要多久

Access數據庫怎么創建一個數據表

捷達車頭水箱有什么作用?

兒童房設計設計過程中需要注意哪些問題

安徽籍貫

嗶嘰面料怎么洗滌和保養

夢見吉他修好了夢見吉他修好了什么意思

wto是什么意思 wto是什么意思中文翻譯

九寨溝是中國的哪里九寨溝位于什么地方

win11麥克風沒聲音 win10麥克風沒聲音怎么設置

想買農村的房子怎么操作農村怎么去買房買車子好

大表姐的時尚包包狂刷存在感，LV、Hermes水桶包成為新潮

國產智能手機哪個牌子好,小米成唯一國產品牌

有過道的戶型怎么裝修

滁州市2018年城南房價是多少,坐標安徽省滁州市

三星note4價格，三星note4電信版價格是多少