千支隊伍爭鋒!首屆「啟智杯」算法大賽圓滿落幕,助推AI應用落地

千支隊伍爭鋒!首屆「啟智杯」算法大賽圓滿落幕,助推AI應用落地

文章圖片

千支隊伍爭鋒!首屆「啟智杯」算法大賽圓滿落幕,助推AI應用落地

文章圖片

千支隊伍爭鋒!首屆「啟智杯」算法大賽圓滿落幕,助推AI應用落地

機器之心報道
編輯:Sia
作為新一輪科技革命和產業變革的重要驅動力量 , 人工智能正從技術探索邁向規模化應用 , 成為中國經濟社會高質量發展的新引擎 。 為推動智能算法從理論創新邁向實際落地 , 啟元實驗室于 2025 年 5 月 20 日正式啟動「啟智杯」算法創新應用挑戰賽 。 經過兩個多月的激烈角逐 , 大賽于 7 月 25 日圓滿落幕 。

賽事共吸引來自高校、科研院所及科技企業的 1022 支隊伍參賽 。 最終 , 來自華南理工大學、陜西師范大學、西北農林科技大學及中山大學的三支代表隊憑借扎實的建模與創新能力分別斬獲三大賽道的冠軍 。
本屆賽事中 , 各參賽隊伍在建模思路、算法選型與工程實現等方面展開積極探索 , 部分具有代表性的技術路線在實戰中獲得有效驗證 , 為相關行業應用提供了有價值的啟示與參考 。

【千支隊伍爭鋒!首屆「啟智杯」算法大賽圓滿落幕,助推AI應用落地】千支隊伍硬核挑戰落地 ,
Transformer 架構展現關鍵作用
本屆「啟智杯」設立了「衛星遙感圖像魯棒實例分割」、「面向嵌入式平臺的無人機對地目標檢測」、「面向多模態大模型的對抗」三大賽道 , 選手們需圍繞魯棒感知、輕量部署與對抗防御等核心能力展開比拼 。

本屆大賽的三大賽題方向
在實際應用中 , 遙感圖像往往存在圖像分辨率與尺寸差異大、目標易被遮擋或呈現模糊特征等問題 , 不同成像條件(如傳感器類型、拍攝環境)造成的域差異 , 也進一步加大了解析難度 , 尤其是對小目標的精準識別 。 「衛星遙感圖像魯棒實例分割」賽題聚焦高分辨率遙感圖像中復雜目標的精準分割任務 , 要求參賽團隊在實現像素級高精度分割的同時 , 有效應對視角畸變、遮擋干擾和分布外樣本(OOD)等因素給模型帶來的多重挑戰 。
為系統評估模型的實際適用能力 , 賽題采用分階段設計:初賽主要考察分割精度 , 復賽則引入「已知 + 未知類別」的混合測試集 , 在更加貼近真實環境的設定中 , 驗證模型的泛化能力與零樣本分割能力 。
比賽過程中 , 選手們在模型設計、訓練與調優方面進行了大量嘗試 。 在復賽測試集更具挑戰性的背景下 , 參賽隊伍仍然積極迭代優化方案 。 最終 , 華南理工大學的團隊「AlexZou14」憑借改進的一套目標實例分割方案奪冠 。

「衛星遙感圖像魯棒實例分割」賽道前三名獲獎隊伍
該方案在 Co-DETR 模型基礎上進行了針對性優化 。 Co-DETR 是 DETR 系列模型的一種改進版本 , 具備更高效的結構與訓練機制 。 其核心特點在于在訓練階段引入多個并行的輔助檢測頭 , 與主檢測頭進行「協同訓練」 。 這些輔助頭采用不同的標簽分配策略 , 對共享的 Transformer 編碼器提供多樣化的監督信號 , 從而提升了編碼器的特征學習能力 。
比賽過程中 , 冠軍團隊引入了多種輔助檢測與分割頭 , 包括 ATSS Head、RPN Head、SimpleRefineMask 與 MaskIoU Head。 這些模塊通過多任務并行訓練 , 為編碼器引入更多監督信號 , 有效提升模型對細節的捕捉能力和對小目標的檢測表現 。
復賽時 , 面對未知類別 , 團隊通過擴展訓練數據的類別覆蓋范圍 , 提升了模型的類別泛化能力 。 同時 , 引入大模型 SAM( Segment Anything Model ) , 自動為圖像中潛在目標生成分割掩碼 , 并將其作為偽標簽 , 用于偽監督訓練 。 這一策略在無需人工標注的條件下 , 有效增強了模型對新類別目標的識別能力 。
整體來看 , 該方案之所以能夠在激烈競爭中脫穎而出 , 關鍵在于巧妙融合了 Transformer 架構、多任務聯合優化、大模型的分割先驗與偽監督學習機制 , 在精度提升與魯棒性增強之間取得了良好平衡 。
「面向嵌入式平臺的無人機對地目標檢測」被認為是本屆大賽最具人氣的賽題 , 初賽階段提交量位居三大賽道之首 , 也體現出任務本身的廣泛適用性與技術吸引力 。
該任務不僅要求算法具備高識別精度 , 還須在昇騰 310B 等算力受限、功耗受控的端側平臺上高效運行 。 參賽隊伍需在「看得準」與「跑得快」之間取得極致平衡 。
賽事設置層層遞進的評估體系:初賽階段聚焦檢測精度 , 復賽則同時引入推理效率和部署穩定性考核 , 通過實地測評模擬無人機任務場景 , 全面檢驗方案的落地能力與工程魯棒性 。
最終 , 陜西師范大學與西北農林科技大學聯合組成的團隊「斷雁無憑」憑借模型在硬件受限情況下的高精度表現 , 獲得冠軍 。

「面向嵌入式平臺的無人機對地目標檢測」前三名獲獎隊伍
在初賽階段 , 團隊基于 YOLOv11 搭建了目標檢測模型 , 并通過多尺度訓練與測試時增強( Test-Time Augmentation TTA )策略提升模型魯棒性 , 取得了良好效果 。
進入復賽后 , 面對更加復雜的背景環境與密集的小目標場景 , YOLOv11 在全局建模能力與細粒度目標識別方面暴露出一定局限 。 為此 , 團隊果斷轉向基于Transformer 架構的 Co-DETR 模型 。 相比傳統 CNN 檢測器 , Co-DETR 能更有效地捕捉圖像中的全局上下文信息 , 更適應復雜場景下的小目標檢測需求 。
在此基礎上 , 團隊進一步引入了 RFLA( Region-based Focal Loss Assignment )標簽分配策略 , 以優化小目標的正負樣本匹配精度 , 緩解了傳統匹配機制在處理密集小目標時的不足 。 同時 , 采用專為小目標設計的 ATSS( Adaptive Training Sample Selection )采樣方法 , 引導模型在訓練階段更關注小尺寸目標區域 , 從而顯著提升檢測性能 。
考慮到 Transformer 模型對顯存資源的高度依賴 , 團隊還應用了梯度檢查點( Gradient Checkpointing )技術 , 顯著降低訓練過程中的顯存占用 , 使得在有限硬件條件下依然能夠穩定訓練大規模模型 。
多項優化策略協同作用下 , 模型在復賽的復雜場景中表現出優異的檢測精度與穩定性 , 最終助力團隊在激烈競爭中脫穎而出 。
多模態大模型的迅猛發展 , 正在為復雜決策場景打開新可能 。 然而 , 隨著其應用邊界不斷拓展 , 模型的魯棒性與可靠性問題正成為制約 AI 安全性與可持續應用的瓶頸 。 「面向多模態大模型的對抗挑戰賽」圍繞視覺問答、圖像描述和變化檢測三大典型任務 , 從準確性、抗干擾性與抗攻擊性三大維度 , 全面考察模型在可見光遙感圖像場景下的魯棒性與可靠性 。
為了貼近真實部署 , 賽事設置了 20GB 模型體積上限與單卡推理時間限制 , 進一步提升對算法效率與系統優化的挑戰 。 如何在有限資源下權衡精度與速度 , 成為每支隊伍必須面對的關鍵命題 。
復賽階段 , 該賽道的轉化率約 68% , 顯著高于其他賽道 , 充分反映出參賽團隊在多模態理解與模型調優方面的高度成熟 。 最終 , 中山大學的團隊「愛吃豬腳飯」憑借高魯棒性、高可靠性模型方案 , 成功登頂 。

「多模態對抗魯棒性」賽題前三名獲獎隊伍
為了在多重限制條件下兼顧性能和效率 , 突破從通用視覺到遙感認知這道巨大鴻溝 , 并在準確性與魯棒性之間找到最佳平衡 , 該團隊以 Qwen2.5-VL-7B-Instruct 作為基礎模型 , 圍繞三大核心策略展開系統性優化 。
在數據構建方面 , 團隊自建了面向遙感任務的專業數據集 , 為模型訓練提供了扎實的數據支持 。
在訓練方法上 , 設計采用了課程學習式多任務微調策略 。 該策略借鑒人類循序漸進的學習過程 , 將任務按難度與語義層級進行階段性訓練——模型先掌握基礎識別能力 , 再逐步過渡到更復雜的理解與推理任務 。 這種漸進式學習方式顯著降低了訓練負擔 , 同時有效提升了模型在遙感場景下的適應性與表現 。
此外 , 針對遙感圖像中常見的模糊、噪聲、光照變化和遮擋問題 , 團隊引入了自適應圖像增強預處理機制 。 該機制可根據圖像質量特征動態調整處理策略 , 如增強對比度、去噪、銳化等 , 精準匹配圖像劣化類型 , 從源頭提升圖像可判讀性 , 增強模型的魯棒性 。
在三項策略的協同作用下 , 該方案在準確率、魯棒性與計算效率之間實現了有效統籌 , 展現出在專業視覺理解任務中的強大潛力 。
以賽為媒 , 探索 AI 落地新路徑
本屆「啟智杯」不僅是一場算法能力的高水平競技 , 更是一次將前沿算法與理論創新融合實際應用、推動智能算法產業落地的重要嘗試 。
大賽聚焦視覺智能領域的核心技術挑戰 , 設置三大賽道 , 賽題設計緊貼真實應用場景 , 力求全面還原現實挑戰的復雜多變 。 相比純粹的算法挑戰 , 本屆賽事除了注重算法精度 , 還強調模型在動態復雜環境中的適應能力和工程可行性 , 為參賽團隊提供了一個將算法技術進行實戰轉化的真實語境 。
例如 , 高分辨率遙感圖像中復雜目標的精準分割任務 , 廣泛應用于地理信息提取、環境監測、城市規劃等關鍵場景 。 比賽過程中 , 選手需應對遮擋、模糊與跨域變化等多重干擾 , 不僅考驗模型的精度 , 更考驗其在非理想條件下的適應能力 。 冠軍團隊嘗試多檢測頭協同訓練、引入大模型偽監督與類別擴展策略等方法 , 不斷探索可部署的工程化路徑 。 最終 , 獲勝方案展現出面向核心視覺應用的強大落地潛力 。
在最具人氣的「面向嵌入式平臺的無人機對地目標檢測」比賽中 , 選手不僅要實現高精度識別 , 還需在算力受限的端側平臺上保障推理效率與部署穩定性 。 這一設定引導參賽者深入探索模型壓縮、顯存調度等工程策略 。 「斷雁無憑」團隊的技術方案在性能與資源約束之間取得了良好平衡 , 為邊緣部署提供了可參考的路徑 。
不僅如此 , 參賽團隊還在多模態大模型的魯棒性與可控性等前沿方向展開積極探索 。 面對遙感圖像中復雜且不可預測的干擾環境 , 冠軍團隊引入「課程式多任務微調」策略 , 結合自適應預處理機制 , 使模型在不確定性場景中依然保持穩健的感知與理解能力 , 驗證了新一代 AI 系統的落地潛力 。
以賽促學 , 助力 AI 新生代成長
作為一場聚焦產業落地的賽事 , 「啟智杯」也探索出了一條 AI 人才培養的新路徑 。 在高強度的賽事環境中完成復雜任務 , 選手們不僅要掌握前沿算法 , 還需理解業務和數據 , 構建兼具精度與可落地的技術方案 。 通過端到端的實戰訓練 , 他們不僅實現了從理論到工程的閉環能力提升 , 顯著拓展了認知邊界 , 對科研成果轉化與工程落地的整體理解與掌控能力也得到大幅增強 。
這種復合型能力的錘煉 , 對于即將步入科研或產業前沿的青年人才而言 , 具有寶貴價值 。 賽后 , 不少參賽者會投身高校、企業及科研機構 , 繼續深耕在 AI 前沿 , 為行業注入源源不斷的新動力 。
本屆「啟智杯」也有力推動了 AI 生態的發展 。 比賽過程中 , 企業得以前瞻性把握前沿研究動向 , 科研團隊則在真實任務中獲得應用反饋 , 有效促進了產學研之間聯動 。 賽事的廣泛傳播 , 也提升了公眾對人工智能及其應用價值的認知 。
展望未來 , 「啟智杯」將繼續面向真實世界挑戰 , 拓展更具技術深度與產業價值的命題方向 , 進一步打通產學研用聯動鏈條 , 構建一個聚焦實戰能力、推動生態協同、加速技術落地的人工智能創新平臺 。

    推薦閱讀