Meta視覺基座DINOv3王者歸來:自監督首次全面超越弱監督,商用開源_衛星|人工智能|機器學習

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

機器之心報道
編輯：杜偉、冷貓
計算機視覺領域的大部分下游任務都是從二維圖像理解（特征提?。 ┛嫉?。
在特征提取、語義理解、圖像分割等 CV 基本任務中的模型三幻神分別是 SAM、CLIP 和 DINO ，分別代表了全監督、弱監督和自監督三大數據訓練范式。
【Meta視覺基座DINOv3王者歸來:自監督首次全面超越弱監督,商用開源】在人工智能領域，自監督學習（SSL）代表了 AI 模型無需人工監督即可自主學習，它已成為現代機器學習中的主流范式。自監督學習推動了大語言模型的崛起，通過在海量文本語料上的預訓練，獲得了通用表示能力。
相比于需要標注數據的 SAM 模型和依賴圖像 - 文本對進行訓練的 CLIP 模型，基于自監督學習的 DINO 具備有直接從圖像本身生成學習信號的優勢，數據準備門檻更低，更容易實現更大規模的數據學習以達到更精細的圖像特征，泛化性更強。
2021 年， Meta 發布 DINO ，它基于 ViT 構建，在無需標注的情況下可以學習到語義分割、對象檢測等任務中高可用的特征，填補了 SAM 模型在計算機視覺下游任務的空白。
2023 年， DINOv2 發布并開源，是 DINO 模型的改進版本。它采用了更大規模的數據，強調訓練穩定性和通用性，支持線性分類、深度估計、圖像檢索等下游任務，效果逼近或超越弱監督方法。
DINOv2 不僅被 Meta 用作 ImageBind 等多模態模型的視覺表征基礎，也在各類視覺相關研究工作中作為經典模型廣泛使用。

DINOv2 數據處理管線圖
雖然 DINOv2 已經存在兩年之久，它仍然是 CV 領域最優秀的前沿圖像模型之一，具有完善可擴展的 ViT 結構，但遺憾就遺憾在訓練數據量不夠大，在高分辨率圖像密集特征的任務中仍不夠理想。
今天， DINOv2 的兩大遺憾徹底被補足了。 Meta 正式推出并開源了 DINOv3 ，一款通用的、SOTA 級的視覺基礎模型，同樣采用了自監督學習訓練，能夠生成更高質量的高分辨率視覺特征。
DINOv3 首次實現：一個單一的凍結視覺骨干網絡在多個長期存在的密集預測任務（如目標檢測和語義分割）中超越了專業解決方案。

DINOv3 取得突破性性能的核心在于其創新的自監督學習技術，這些技術徹底擺脫了對標注數據的依賴，大幅降低了訓練所需的時間與資源，使得訓練數據擴展至 17 億張圖像，模型參數規模擴展至 70 億。這種無標簽方法適用于標簽稀缺、標注成本高昂甚至不可能獲取標注的應用場景。

從 DINO、DINO v2 到 DINOv3 。
Meta 表示，其正以商業許可方式開源 DINOv3 的一整套骨干網絡，其中包括基于 MAXAR 衛星圖像訓練的衛星圖像骨干網絡。同時， Meta 還開放了部分下游任務的評估頭（task head），以便社區復現其結果并在此基礎上拓展研究。此外還提供了示例筆記本，幫助開發者快速上手，立即開始構建基于 DINOv3 的應用。
對于 Meta 此次的新模型，網友調侃道，「我還以為 Meta 已經不行了，終于又搞出了點新東西。」

自監督學習模型的全新里程碑
DINOv3 實現了一個新的里程碑：首次證明自監督學習（SSL）模型在廣泛任務上能夠超越弱監督模型。盡管前代 DINO 模型已在語義分割、單目深度估計等密集預測任務中取得顯著領先， DINOv3 的表現更勝一籌。
DINOv3 在多個圖像分類基準上達到了與最新強大模型（如 SigLIP 2 和 Perception Encoder）相當或更優的性能，同時在密集預測任務中顯著擴大了性能差距。

DINOv3 基于突破性的 DINO 算法構建而成，無需任何元數據輸入，所需訓練計算量僅為以往方法的一小部分，卻依然能夠產出表現卓越的視覺基礎模型。
DINOv3 中引入的一系列新改進，包括全新的 Gram Anchoring 策略，有效緩解了密集特征的坍縮問題，相比 DINOv2 擁有更出色、更加干凈的高分辨率密集特征圖；引入了旋轉位置編碼 RoPE ，避免了固定位置編碼的限制，能夠天然適應不同分辨率的輸入等。
這些新的改進使其在多個高競爭性的下游任務中（如目標檢測）取得了當前 SOTA 性能，即使在「凍結權重」這一嚴苛限制條件下也是如此。這意味著研究人員和開發者無需對模型進行針對性的微調，從而大大提高了模型在更廣泛場景中的可用性和應用效率。

從數據整理（無標簽原始圖像、平衡的圖像數據）、預訓練（大規模自監督學習模型）、Gram Anchoring（改進的局部特征）、高分辨率微調（適用于高分辨率推理）和模型蒸餾（涵蓋多種模型規模）。

DINOv3 作為通用視覺特征提取器的工作流程，以及它在不同下游任務中的應用方式。
高分辨率、密集特征與高精度
DINOv3 的一大亮點，是相比于已有模型在高分辨率圖像以及密集圖像特征上的進步，顯著改善了 DINOv2 時期的痛點。

比如說這張圖，是一張分辨率為 4096×4096 的水果攤圖像。要從這里找出某種特定的水果，就算是肉眼看都有點暈…
而 Meta 可視化了 DINOv3 輸出特征所生成的余弦相似度圖，展示了圖像中某個被紅色叉標記的 patch 與所有其他 patch 之間的相似度關系。
放大看看，是不是還挺準確的？

關于密集特征部分， Meta 通過以下方式可視化 DINOv3 的密集特征：對其特征空間執行主成分分析（PCA），然后將前三個主成分映射為 RGB 顏色通道。為使 PCA 聚焦于主體區域， Meta 對特征圖進行了背景剔除處理。
隨著圖像分辨率的提升， DINOv3 能夠生成清晰銳利且語義一致的特征圖。
Meta 稱，盡管自監督學習出現較晚，但其發展迅速，如今已追趕上近年來 ImageNet 上的精度上限。
可擴展、高效且無需微調
DINOv3 是在其前代 DINOv2 的基礎上構建的，模型規模擴大了 7 倍，訓練數據集擴大了 12 倍。為展現模型的通用性， Meta 在 15 個不同的視覺任務和超過 60 個基準測試上進行了評估。 DINOv3 的視覺骨干模型在所有密集預測任務中表現尤為出色，展現出對場景布局與物理結構的深刻理解能力。

視頻目標分割與跟蹤評估結果

分割與跟蹤示例
模型輸出的豐富密集特征，能夠捕捉圖像中每一個像素的可量化屬性或特征，并以浮點數向量的形式表示。這些特征能夠將物體解析為更細粒度的組成部分，甚至能在不同實例和類別間進行泛化。
憑借這種強大的密集表示能力， Meta 可以在 DINOv3 上方僅用極少的標注訓練輕量化的適配器 —— 只需少量標注和一個線性模型，就能獲得穩健的密集預測結果。
進一步地，結合更復雜的解碼器， Meta 展示了：無需對骨干網絡進行微調，也能在長期存在的核心視覺任務上取得最先進的性能，包括目標檢測、語義分割和相對深度估計。
由于在無需微調骨干網絡的前提下也能實現 SOTA（最先進）性能，單次前向傳播就可以同時服務多個任務，從而顯著降低推理成本。這一點對邊緣應用場景尤為關鍵，這些場景往往需要同時執行多項視覺預測任務。
易于部署的系列模型
將 DINOv3 擴展至 70 億參數規模，展現了自監督學習（SSL）的全部潛力。然而，對于許多下游應用而言， 70 億參數的模型并不現實。基于社區反饋， Meta 構建了一個涵蓋不同推理計算需求的模型家族，以便支持研究人員和開發者在各種使用場景中進行部署。
通過將 ViT-7B 模型進行蒸餾， Meta 得到了一系列更小但性能依舊出色的模型變體，如 ViT-B 和 ViT-L ，使得 DINOv3 在多個評估任務中全面超越了同類的基于 CLIP 的模型。
此外， Meta 還推出了一系列蒸餾自 ViT-7B 的 ConvNeXt 架構模型（T、S、B、L 版本），它們能夠滿足不同的計算資源約束需求。與此同時， Meta 也將完整的蒸餾流程管線開源，以便社區在此基礎上進一步開發與創新。
Meta「改變世界」的嘗試
Meta 稱， DINOv2 已經通過利用大量未標注數據，為組織在組織病理學、內窺鏡檢查和醫學影像等領域的診斷和研究工作提供支持。
在衛星與航空影像領域，數據體量龐大且結構復雜，人工標注幾乎不可行。借助 DINOv3 ， Meta 使這些高價值數據集能夠用于訓練統一的視覺骨干模型，進而可廣泛應用于環境監測、城市規劃和災害響應等領域。
DINOv3 的通用性與高效性使其成為此類部署的理想選擇 —— 正如 NASA 噴氣推進實驗室（JPL）所展示的那樣，其已經在使用 DINOv2 構建火星探索機器人，實現多個視覺任務的輕量執行。
DINOv3 已經開始在現實世界中產生實際影響。世界資源研究所（WRI）正在使用 DINOv3 分析衛星圖像，檢測森林損失和土地利用變化。 DINOv3 帶來的精度提升使其能夠自動化氣候金融支付流程，通過更精確地驗證修復成果來降低交易成本、加速資金發放，特別是支持小型本地組織。
例如，與 DINOv2 相比， DINOv3 在使用衛星與航空影像進行訓練后，將肯尼亞某地區樹冠高度測量的平均誤差從 4.1 米降低至 1.2 米。這使得 WRI 能夠更高效地擴大對數千名農戶與自然保護項目的支持規模。

想要了解更多 DINOv3 細節的讀者，請移步原論文。

論文地址：https://ai.meta.com/research/publications/dinov3/ Hugging Face 地址：https://huggingface.co/docs/transformers/main/en/model_doc/dinov3 博客地址：https://ai.meta.com/blog/dinov3-self-supervised-vision-model/

Meta視覺基座DINOv3王者歸來:自監督首次全面超越弱監督,商用開源

推薦閱讀

重慶醫保報銷流程

柳樹皮養花怎么處理，墊盆泡水或發酵成肥料，干的柳樹皮能直接養花？

外部資信綜合評估什么意思

金毛掉毛怎么處理好金毛掉毛怎么處理好用刷子刷

汽車上的eco是什么意思汽車eco什么意思

寶可夢劍盾能量球技能效果詳解能量球獲得方法說明_網

鯧魚的營養價值鯧魚的營養價值及功效

年糕有什么顏色

曲骨穴位的位置和作用曲骨位置圖和作用的準確

汽車冬天噴漆可以嗎汽車冬天噴漆可以嗎嗎

想買農村的房子怎么操作農村怎么去買房買車子好

大表姐的時尚包包狂刷存在感，LV、Hermes水桶包成為新潮

國產智能手機哪個牌子好,小米成唯一國產品牌

滁州市2018年城南房價是多少,坐標安徽省滁州市

三星note4價格，三星note4電信版價格是多少

有過道的戶型怎么裝修