智能體AI測試需要大量應用才能驗證效果

智能體AI測試需要大量應用才能驗證效果

智能體人工智能正成為軟件領域的新寵 。 高管們希望公司使用AI智能體來提高效率 , 這促使供應商交付基于智能體的軟件 , 而每個軟件開發團隊都在尋找方法為其開發平臺添加智能體功能和自動化 。
通過與副駕駛并行編碼 , 一些專家推測開發人員可以將代碼輸出量提高10倍 。 但這種輸出的質量如何?AI生成的代碼是否會將測試覆蓋需求提高到人類無法企及的程度?
盡管存在質量擔憂和開發者疑慮 , 但AI開發和測試工具能夠快速、半自主地完成工作的潛在價值太大 , 無法逆轉 。 我們最終將不得不用AI智能體來測試AI智能體 。
難怪最近的調查發現 , 三分之二的公司要么已經在使用 , 要么計劃使用多個AI智能體來測試軟件 , 72%的公司相信智能體AI到2027年能夠自主測試軟件 。
從哪里開始基于智能體的測試
新興公司具有從一開始就使用AI的優勢 , 似乎從手工應用程序和測試中繼承的技術債務較少 。 雖然初創團隊可以快速行動 , 但同時 , 他們可能沒有足夠的實施經驗來了解在哪里尋找錯誤 。
將AI測試智能體引入團隊可以提供幫助 , 但一旦它們被賦予查找缺陷的任務 , 它們可能會生成比預期多得多的測試反饋 。 現在開發人員發現自己試圖將真正的錯誤從誤報中分離出來 , 這肯定會影響編程的氛圍 。
\"采用智能體的唯一目的是提高生產力 , 而實現這一點的關鍵是可驗證性 , \"智能體AI驅動測試平臺Tricentis的人工智能副總裁David Colwell說 。 \"最好的AI智能體不是能夠最快完成工作的那個 。 最好的AI智能體是能夠最快證明工作正確完成的那個 。 \"
從某種意義上說 , 擁有長期運行DevOps工具鏈的成熟企業確實比靈活的初創公司有一個優勢:能夠將現有需求、文檔、客戶旅程、架構圖、程序、測試計劃、測試用例甚至機器人流程自動化機器人整合到AI上下文知識語料庫中 , 這可以為專業測試智能體群提供基礎技能 。
\"當你提示AI編寫測試時 , 一個智能體將理解用戶的自然語言命令 , 另一個將開始針對該計劃執行并將操作寫入測試 , 而另一個智能體理解應用程序中發生的變化以及測試應該如何修復 , \"Virtuoso QA創建者SpotQA的創始人兼首席執行官Andrew Doughty說 。 \"然后如果出現故障 , 智能體可以查看該測試對象的歷史記錄 , 然后自動分類并發送給開發人員進行調查 。 \"
管理智能體測試資產
雖然最新的大語言模型如ChatGPT和Gemini的百科全書式知識和異常人性化的對話令人印象深刻 , 但它們龐大數據集的大部分內容與軟件測試技能完全無關 。 此外 , 使用足夠的生成式AI Token來自動化測試高流量企業應用程序確實會消耗大量工具和基礎設施預算 。 這就是為什么更精簡的測試智能體如此完美適配的原因 。
\"我們發現客戶不需要基于大模型的AI來完成非常具體的測試任務 。 你真正需要的是經過調整和訓練的較小模型來完成特定任務 , 具有關于被測系統的細粒度上下文 , 以提供一致、有意義的結果 , \"Functionize Inc.總裁Matt Young說 。
測試管理平臺已經存在多年 , 協調測試自動化工具鏈的使用并根據需求執行測試套件 。 由于大多數AI智能體和大語言模型都可以通過應用程序編程接口控制(現在使用MCP服務器)調用 , 理論上它們可以與傳統測試工具一起編排 。
\"用于測試規劃、設計、執行、報告和維護的專業智能體仍然是需要治理的資產 , 特別是在高度監管的行業中 , \"Katalon Inc.戰略副總裁Alex Martins說 。 \"給AI智能體一個沒有足夠細節的高級需求 , 生成的測試將毫無用處 。 我們將測試用例與需求進行比較 , 通常使用另一個智能體來檢查工作 , 然后看看它們是否得出相同的結論 。 然后我們標記不匹配的案例供人類查看 。 \"
通過現實世界反饋克服幻覺
我們都聽說過AI聊天機器人偏離軌道 , 用完全編造的答案回應客戶請求 , 這對使用它們的公司來說可能是搞笑的或巨大的責任 。 AI智能體甚至更不成熟 , 就像知道一切但不知道自己不知道什么的青少年 。
\"你的智能體需要捕獲來自暫存和生產的現實世界數據的反饋循環 , 一個'數字孿生' , 這樣AI就不會與自己爭論 , \"Speedscale LLC的首席執行官Ken Ahrens說 。 該公司最近發布了一個名為Proxymock的免費實用程序 , 智能體可以將其用作工具 , 從部署的軟件中快照現實環境 , 以便重放功能和回歸測試 。
無論AI智能體用于編碼還是測試 , 它們都旨在取悅用戶 。 如果編碼和集成智能體沒有得到足夠的上下文來提供有效的解決方案 , 它們通常會發明一個看起來合理但在目標環境中無法工作的代碼片段 。 如果你提示測試智能體在沒有明確需求的情況下查找缺陷 , 即使在查看完美構建的軟件時 , 它也會返回一些誤報 。
\"AI測試經?;孟氩襟E , 跳過關鍵邊緣情況 , 或陷入循環 , \"TestSprite的首席執行官Yunhao Jiao說 。 \"在編碼智能體中 , 我們經??吹叫枨笠幎ǖ膬热菖c智能體交付的內容之間的不匹配——'看起來正確 , 但細節失敗'的問題 。 一些智能體甚至會'游戲化'系統:例如 , 一位開發人員分享說 , 當他們告訴AI某個功能不工作時 , 它簡單地刪除了該功能以滿足請求 。 \"
克服非確定性可重復性
使用智能體測試AI驅動軟件的一個主要關注點是可重復性 。 當非確定性AI智能體與不同團隊用戶以及底層技術和對等智能體交互時 , 感知到的錯誤幾乎不可能復制 。
\"可重復性涉及創建相同的狀態——使用可觀察性 , 你需要收集所有數據 , 這將允許你回到錯誤條件發生的時間 , 包括屏幕元素、日志和AI操作 , \"Sauce Labs Inc.的首席執行官Prince Kohli說 。 \"你甚至可以問智能體'告訴我你為什么得出這個結論 。 '雖然它們永遠不會完美 , 但你可以更接近真相 。 \"
Sauce Labs平臺在每個拉取請求或生產崩潰時啟動AI測試創作智能體 , 為發布經理、開發人員和QA工程師提供基于行為的測試套件 , 模擬跨不同設備端點和瀏覽器的多個用戶場景 。
AI能否成為質量的判斷者
測試智能體可以讀取代碼、采取行動并創建應用程序的抽象表示 , 這從未完全匹配人類測試人員使用應用程序的體驗 。 兩者之間的差異代表測試覆蓋的差距 , 這仍然會將人類置于測試循環中 。
\"在我們的端到端測試平臺中 , 我們正在使用和消費應用程序 , 我們也在接收規范和用戶故事 。 從該知識庫中 , 它創建可以由智能體運行的測試 , \"SmartBear Software的AI和架構副總裁Fitz Nowlan說 。 \"我們仍然需要人類來決定表示是否準確 , 并確認AI是否在正確的軌道上 。 這對軟件開發人員和測試人員都是提升的 。 \"
配備副駕駛 , 開發人員正在以前所未有的速度檢入代碼 。 這就是智能體可以介入幫助團隊以相同速度測試應用程序的地方 , 以確保每個快速發布仍然與客戶需求保持一致 。
\"也許智能體AI是一個機會 , 不僅僅是重復我們在代碼生成方面所做的事情 , 而是也許最終正確地進行測試驅動開發 , 就像我們在過去20年中一直在談論的那樣 , \"Qodo的首席執行官Itamar Friedman說 。 \"TDD要求你對需求嚴格 , 而對于AI生成的代碼 , 有時你甚至不知道代碼庫的意圖 。 多個智能體可以審查代碼并在開發人員的IDE中根據需求提供上下文 。 \"
大規模測試智能體AI
無論智能體是與用戶還是其他智能體交談 , 調用API還是引用MCP服務器 , 它們仍然依賴TCP/IP 。 整個互聯網的性能是測試智能體性能的基本事實的一部分 。
\"我們的一些客戶在用戶設備上持續運行AI智能體 , 我們正在測試事件發生時該端點接口的性能——例如 , 如果某個地區的開放路由器服務或CDN停機 , 那就是一個問題 , \"Catchpoint Systems Inc.的首席產品官Matt Izzo說 。 \"其他客戶希望測試來自世界各地位置的某些提示的一致性和響應時間 。 \"
總結觀點
隨著無限消耗功率和資源的大語言模型市場泡沫達到破裂點并破裂 , 我們將繼續發現團隊轉向更精簡、更專業的智能體來交付和測試應用程序功能 。
先進的公司應該投入時間為測試智能體構建負責任的信任框架 , 包括員工和智能體反饋以及質量護欄 , 用于管理其擴展環境中AI資產和智能體群的行為 。
盡管如此 , 無論開發和測試組織內AI使用的治理看起來多么復雜和嚴密 , 我們的智能體同事無法捕獲一切 。 我們仍然需要人類來測試 。
Q&A
Q1:智能體AI在軟件測試中有什么優勢?
【智能體AI測試需要大量應用才能驗證效果】A:智能體AI可以快速、半自主地完成測試工作 , 幫助團隊以與代碼開發相同的速度測試應用程序 。 它們能夠理解自然語言命令、自動執行測試計劃、分析應用程序變化并自動修復測試 , 還能查看測試歷史記錄并自動分類故障 。
Q2:為什么說精簡的測試智能體比大語言模型更適合測試?
A:因為大語言模型的龐大數據集大部分與軟件測試技能無關 , 而且使用大量Token來測試企業應用程序會消耗大量預算 。 精簡的測試智能體經過專門調整和訓練 , 具有關于被測系統的細粒度上下文 , 能夠提供更一致、有意義的結果 。
Q3:AI測試智能體存在哪些主要挑戰?
A:主要挑戰包括:幻覺問題(生成虛假步驟或跳過關鍵測試用例)、可重復性差(非確定性行為難以復制錯誤)、誤報率高(將正確功能標記為錯誤)、以及無法完全匹配人類測試體驗等 。 因此仍需要人類在測試循環中進行監督和驗證 。


    推薦閱讀