日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

ApdativeNN:建模類人自適應(yīng)感知機制,突破機器視覺不可能三角

ApdativeNN:建模類人自適應(yīng)感知機制,突破機器視覺不可能三角

文章圖片

ApdativeNN:建模類人自適應(yīng)感知機制,突破機器視覺不可能三角

文章圖片

ApdativeNN:建模類人自適應(yīng)感知機制,突破機器視覺不可能三角

文章圖片

ApdativeNN:建模類人自適應(yīng)感知機制,突破機器視覺不可能三角

文章圖片

ApdativeNN:建模類人自適應(yīng)感知機制,突破機器視覺不可能三角

文章圖片

ApdativeNN:建模類人自適應(yīng)感知機制,突破機器視覺不可能三角

文章圖片



視覺是人類理解復(fù)雜物理世界的重要方式 。 讓計算機具備視覺感知與認(rèn)知的能力 , 是人工智能的主要研究問題之一 , 對多模態(tài)基礎(chǔ)模型、具身智能、醫(yī)療 AI 等重要領(lǐng)域具有關(guān)鍵支撐作用 。 過去幾十年間 , 計算機視覺取得了顯著突破 , 已在圖像識別、目標(biāo)檢測、多模態(tài)理解等多個任務(wù)上接近甚至超越人類專家水平 。 然而 , 當(dāng)前的高精度模型在實際落地中常面臨較大挑戰(zhàn):它們的推理過程往往需要激活上億參數(shù)來處理高分辨率圖像或視頻、以解決復(fù)雜和挑戰(zhàn)性的視覺問題 , 導(dǎo)致功耗、存儲需求和響應(yīng)時延急劇上升 。 這一瓶頸使得它們難以部署在算力、能耗、存儲等資源高度受限的實際系統(tǒng)中(如機器人、自動駕駛、移動設(shè)備或邊緣終端等) , 甚至在醫(yī)療、交通等場景下由于延遲決策危害生命安全 。 另一方面 , 大型模型龐大的推理能耗在也帶來了大規(guī)模部署的環(huán)境可持續(xù)性問題 。
上述挑戰(zhàn)的一個重要原因在于現(xiàn)有視覺模型普遍采用了全局表征學(xué)習(xí)范式:一次性并行處理整幅圖像或視頻的所有像素、提取全部對應(yīng)特征 , 再應(yīng)用于具體任務(wù) 。 這種 “全局并行計算” 范式使得模型計算復(fù)雜度隨輸入尺寸呈至少平方或立方增長 , 逐漸形成了一個日益嚴(yán)峻的能效瓶頸:信息豐富的高分辨率時空輸入、性能領(lǐng)先的大型模型、高效快速推理 , 三者難以同時滿足 。 這一挑戰(zhàn)正在成為制約視覺智能走向大規(guī)模、可部署落地、低碳環(huán)保的公認(rèn)難題 。

圖1 當(dāng)前計算機視覺范式所面臨的能效瓶頸
人類視覺系統(tǒng)為突破上述瓶頸提供了重要啟示:在觀察復(fù)雜環(huán)境時 , 人眼不會一次性處理全部視覺信息 , 而是通過一系列 “注視” 動作主動、選擇性地采樣關(guān)鍵區(qū)域 , 以小范圍高分辨率的感知逐步拼接出對物理世界中有用信息的認(rèn)知 。 這種先進(jìn)的機制能在龐雜的信息流中快速篩取要點 , 大幅降低計算開銷 , 使得人類高度復(fù)雜的視覺系統(tǒng)即便在資源受限的前提下依然能夠高效、快速運行 。 無論外界場景多么復(fù)雜 , 人類視覺的能耗主要取決于注視帶寬與注視次數(shù) , 而非全局像素量 。 早在 2015 年 , LeCun Bengio Hinton 便在《Nature》綜述論文 “Deep Learning” 中指出 , 未來的 AI 視覺系統(tǒng)應(yīng)具備類人的、任務(wù)驅(qū)動的主動觀察能力 。 然而近十年來 , 這一方向仍缺乏系統(tǒng)性研究 。

圖2 人類視覺系統(tǒng)的主動自適應(yīng)感知策略
2025 年 11 月 , 清華大學(xué)自動化系宋士吉、黃高團隊在《自然?機器智能》(Nature Machine Intelligence)上發(fā)表了論文《Emulating human-like adaptive vision for efficient and flexible machine visual perception》 (模擬人類自適應(yīng)視覺 , 實現(xiàn)高效靈活的機器視覺感知) 。 該研究提出了 AdaptiveNN 架構(gòu) , 通過借鑒人類 “主動自適應(yīng)視覺” 的機制 , 將視覺感知建模為由粗到精的最優(yōu)序貫決策問題:逐步定位關(guān)鍵區(qū)域、累積多次注視信息 , 并在信息足夠完成任務(wù)時主動終止觀察 。 在理論上 , 該研究通過結(jié)合表征學(xué)習(xí)與自獎勵強化學(xué)習(xí) , 給出了 AdaptiveNN 所面臨的離散 - 連續(xù)混合優(yōu)化問題的無需額外監(jiān)督的端到端求解方法 。 在涵蓋 9 類任務(wù)的廣泛實驗中 , AdaptiveNN 在保持精度的同時實現(xiàn)了最高 28 倍的推理成本降低 , 可在線動態(tài)調(diào)整其行為以適配不同任務(wù)需求與算力約束 , 同時 , 其基于注視路徑的推理機制顯著提升了可解釋性 。 AdaptiveNN 展現(xiàn)出構(gòu)建高效、靈活且可解釋的計算機視覺新范式的潛力 。 另一方面 , AdaptiveNN 的感知行為在多項測試中與人類接近 , 也為未來探索人類視覺認(rèn)知機制的關(guān)鍵問題提供了新的見解和研究工具 。

論文標(biāo)題:Emulating human-like adaptive vision for efficient and flexible machine visual perception 論文鏈接:https://www.nature.com/articles/s42256-025-01130-7AdaptiveNN:類人主動感知架構(gòu)

借助這一機制 , AdaptiveNN 能夠在保證高精度的同時顯著降低計算量 , 實現(xiàn)“看得清 , 也看得省” 。 它使神經(jīng)網(wǎng)絡(luò)具備了類人式的主動感知 , 從而突破了傳統(tǒng)視覺模型在效率與效果之間的權(quán)衡瓶頸 。
值得注意的是 , AdaptiveNN 在設(shè)計上具有較強的兼容性和靈活性 , 適用于多種不同的深度神經(jīng)網(wǎng)絡(luò)基礎(chǔ)架構(gòu)(如卷積網(wǎng)絡(luò)、Transformer等)和多種類型的任務(wù)(如純視覺感知、視覺-語言多模態(tài)聯(lián)合建模等) 。

圖3 AdaptiveNN的網(wǎng)絡(luò)架構(gòu)和推理過程
理論創(chuàng)新:自激勵強化學(xué)習(xí)驅(qū)動的主動感知行為學(xué)習(xí)
AdaptiveNN 的訓(xùn)練過程同時涉及連續(xù)變量(如從注視區(qū)域中提取特征)與離散變量(如決定下一次注視位置)的優(yōu)化 , 傳統(tǒng)反向傳播算法難以直接處理這一混合問題 。 為此 , 研究團隊在理論上提出了面向離散 - 連續(xù)混合優(yōu)化問題的端到端求解方法 , 使 AdaptiveNN 能夠在統(tǒng)一框架下簡單易行地完成整體訓(xùn)練 。 具體而言 , 從期望優(yōu)化目標(biāo)出發(fā) , 對整體損失函數(shù) L(θ) 進(jìn)行分解 , AdaptiveNN 的端到端優(yōu)化過程可自然地分解為兩部分:

其中第一項為表征學(xué)習(xí)目標(biāo)(representation learning) , 對應(yīng)于從注視區(qū)域中提取任務(wù)相關(guān)的特征;第二項為自激勵強化學(xué)習(xí)目標(biāo)(self-rewarding reinforcement learning) , 對應(yīng)于優(yōu)化注視位置的分布 , 驅(qū)使模型的主動注視行為實現(xiàn)最大化的任務(wù)收益 。 這一理論結(jié)果揭示了 AdaptiveNN 的內(nèi)在學(xué)習(xí)規(guī)律:主動感知的優(yōu)化本質(zhì)上是表征學(xué)習(xí)與強化學(xué)習(xí)的統(tǒng)一 。

圖4 強化學(xué)習(xí)驅(qū)動的端到端主動視覺的理論框架
實驗驗證:高效視覺感知 , 類人視覺行為
性能提升顯著:在使用相同主干網(wǎng)絡(luò)(如 DeiT-S、ResNet-50)的情況下 , AdaptiveNN-DeiT-S 和 AdaptiveNN-ResNet-50 分別以 2.86 GFLOPs 與 3.37 GFLOPs 的平均計算量 , 取得與傳統(tǒng)靜態(tài)模型相當(dāng)甚至更優(yōu)的準(zhǔn)確率(81.6% / 79.1%) , 實現(xiàn)了 5.4× 與 3.6× 的計算節(jié)省 。 可解釋性增強:AdaptiveNN 的注視軌跡自動聚焦于類別判別性區(qū)域 , 例如動物的頭部、樂器的關(guān)鍵結(jié)構(gòu)、咖啡機的旋鈕與噴嘴等 。 當(dāng)目標(biāo)較小或遠(yuǎn)離攝像機時 , 模型會自適應(yīng)地延長觀察序列 , 主動調(diào)整注視步數(shù)以獲得更精確的判斷 。 這種 “由粗到細(xì)、按需注視” 的策略 , 與人類視覺的逐步注視過程高度一致 。
圖5 ImageNet視覺感知實驗結(jié)果
為了進(jìn)一步驗證 AdaptiveNN 的泛化與精細(xì)感知能力 , 研究團隊在六個細(xì)粒度視覺識別任務(wù)(CUB-200、NABirds、Oxford-IIIT Pet、Stanford Dogs、Stanford Cars、FGVC-Aircraft)上進(jìn)行了系統(tǒng)評估 。
AdaptiveNN 在保持精度基本不變甚至略有提升的情況下 , 實現(xiàn)了 5.8×–8.2× 的計算量節(jié)省 , 顯著超越傳統(tǒng)靜態(tài)視覺模型的性能–能效上限 。 通過可視化(Fig. A1b–A1e) , 可以看到模型自發(fā)聚焦于任務(wù)判別性區(qū)域 —— 如鳥類的喙部、犬類的面部、汽車的燈組與航空器的螺旋槳 —— 而無需任何顯式的定位監(jiān)督 。
圖6 細(xì)粒度視覺識別任務(wù)實驗結(jié)果
AdaptiveNN 在空間注視位置與任務(wù)難度判斷兩個層面 , 都展現(xiàn)出與人類視覺高度一致的自適應(yīng)行為 。 定量結(jié)果表明 , 無論是 “看哪里”、還是 “覺得什么難” , 模型的感知策略都與人類極為相似 。 在 “視覺圖靈測試” 中 , 人類受試者幾乎無法區(qū)分模型與真實人類的凝視軌跡 。
更值得關(guān)注的是 , 這一成果對認(rèn)知科學(xué)的研究具有啟發(fā)意義 。 AdaptiveNN 的結(jié)果不僅為理解人類視覺行為的關(guān)鍵認(rèn)知科學(xué)問題(例如 “視覺能力的形成究竟源于先天機制還是后天學(xué)習(xí)”)提供了新的啟發(fā) , 也展示了其作為一種通用計算模型的潛力 。 未來 , AdaptiveNN 有望用于模擬和檢驗人類的注意分配、感知學(xué)習(xí)、以及復(fù)雜任務(wù)中的視覺決策機制 , 為將來認(rèn)知科學(xué)方面的研究提供了潛在的定量工具 。

圖7 AdaptiveNN與人類視覺感知行為的一致性測試
從視覺感知到邁向高效具身推理
在實驗驗證中 , 研究團隊進(jìn)一步將 AdaptiveNN 應(yīng)用于具身智能的基礎(chǔ)模型(視覺 - 語言 - 行為模型 , VLA)上 。 結(jié)果表明 , 該框架在復(fù)雜操作場景中顯著提升了具身基礎(chǔ)模型的推理與感知效率 , 在保持任務(wù)成功率的同時將計算開銷大幅降低 4.4-5.9 倍 。 這一成果為解決具身智能系統(tǒng)長期面臨的效率瓶頸提供了新的思路與技術(shù)路徑 。

圖8 ApdativeNN應(yīng)用于VLA具身任務(wù)的實驗結(jié)果
【ApdativeNN:建模類人自適應(yīng)感知機制,突破機器視覺不可能三角】清華大學(xué)自動化系博士生王語霖、樂洋、樂陽為論文共同第一作者 , 宋士吉教授與黃高副教授為共同通訊作者 。

    推薦閱讀