Salesforce推出智能體\飛行模擬器\應對95%企業AI項目失敗困境

Salesforce推出智能體\飛行模擬器\應對95%企業AI項目失敗困境

Salesforce正押注通過在模擬商業環境中進行嚴格測試 , 來解決企業人工智能面臨的最大問題:智能體在演示中運行良好 , 但在復雜的企業運營現實中卻頻頻失敗 。
這家云軟件巨頭本周發布了三大AI研究計劃 , 包括CRMArena-Pro——該公司稱之為商業運營的\"數字孿生\"平臺 , AI智能體可在部署前接受壓力測試 。 這一發布正值企業普遍面臨AI試點項目失敗 , 以及最近泄露事件影響數百個Salesforce客戶實例而引發新安全擔憂之際 。
\"飛行員不會在暴風雨中學習飛行;他們在飛行模擬器中訓練 , 推動他們為最極端的挑戰做準備 , \"Salesforce首席科學家兼AI研究主管Silvio Savarese在新聞發布會上表示 。 \"同樣 , AI智能體從模擬測試和訓練中受益 , 使它們為在部署前處理日常商業場景的不可預測性做好準備 。 \"
這一研究推進反映了企業對AI實施日益增長的挫敗感 。 最近的MIT報告發現 , 95%的企業生成式AI試點項目未能投入生產 , 而Salesforce自己的研究顯示 , 大語言模型在復雜商業場景中的成功率僅為35% 。
**企業AI數字孿生:Salesforce如何模擬真實商業混亂**
CRMArena-Pro代表了Salesforce試圖彌合AI承諾與性能之間差距的努力 。 與測試通用能力的現有基準不同 , 該平臺使用合成但真實的商業數據 , 在客戶服務升級、銷售預測和供應鏈中斷等真實企業任務上評估智能體 。
\"如果合成數據生成不夠謹慎 , 可能會導致對智能體在真實環境中實際表現的誤導或過度樂觀結果 , \"領導CRMArena-Pro開發的Salesforce研究經理Jason Wu解釋說 。
【Salesforce推出智能體\飛行模擬器\應對95%企業AI項目失敗困境】該平臺在實際Salesforce生產環境而非玩具設置中運行 , 使用由具有相關商業經驗的領域專家驗證的數據 。 它支持B2B和B2C場景 , 并可模擬捕獲真實對話動態的多輪對話 。
Salesforce一直將自己作為\"零號客戶\"來內部測試這些創新 。 \"在我們將任何東西推向市場之前 , 我們會將創新交到自己團隊手中進行測試 , \"Salesforce總裁兼首席技術官Muralidhar Krishnaprasad在新聞發布會上說 。
**決定AI智能體是否為企業就緒的五個指標**
除了模擬環境 , Salesforce還推出了CRM智能體基準 , 旨在從五個關鍵企業指標評估AI智能體:準確性、成本、速度、信任與安全性 , 以及環境可持續性 。
可持續性指標特別值得注意 , 幫助企業將模型規模與任務復雜性對齊 , 在保持性能的同時減少環境影響 。 該公司表示:\"通過減少模型過載噪音 , 該基準為企業提供清晰、數據驅動的方式來將正確的模型與正確的智能體配對 。 \"
這一基準測試工作解決了IT領導者面臨的實際挑戰:隨著幾乎每天都有新AI模型發布 , 確定哪些適合特定商業應用變得越來越困難 。
**為什么混亂的企業數據可能決定AI部署成敗**
第三項計劃專注于可靠AI的基本前提:清潔、統一的數據 。 Salesforce的賬戶匹配能力使用微調語言模型自動識別和整合跨系統的重復記錄 , 識別\"The Example Company Inc.\"和\"Example Co.\"代表同一實體 。
數據整合工作源于Salesforce研究和產品團隊之間的合作 。 Krishnaprasad解釋說:\"Data Cloud中的身份解析本質上意味著 , 如果你考慮像用戶這樣簡單的東西 , 他們在任何公司的許多系統中都有許多許多許多ID 。 \"
一個主要云提供商客戶使用該技術實現了95%的匹配率 , 通過消除手動交叉引用多個屏幕來識別賬戶的需要 , 為銷售人員每次連接節省30分鐘 。
**OAuth Token盜竊暴露AI驅動客戶工具漏洞**
這些公告是在本月早些時候影響超過700個Salesforce客戶組織的數據盜竊活動引發安全擔憂加劇的背景下發布的 。 根據Google威脅情報組 , 黑客利用來自Salesloft的Drift聊天智能體的OAuth Token訪問Salesforce實例 , 并竊取Amazon Web Services、Snowflake和其他平臺的憑據 。
這次泄露突出了企業依賴于AI驅動客戶參與的第三方集成中的漏洞 。 Salesforce已從其AppExchange市場移除Salesloft Drift , 等待調查 。
**AI演示與企業現實之間的差距比你想象的更大**
模擬和基準測試計劃反映了更廣泛的認識 , 即企業AI部署需要的不僅僅是令人印象深刻的演示視頻 。 真實的商業環境具有遺留軟件、不一致的數據格式和復雜的工作流程 , 這些都可能使即使是復雜的AI系統也脫軌 。
\"我們今天一直在討論的主要方面是一致性方面 , 因此如何確保我們從這些在某種程度上不令人滿意的性能——如果你只是將大語言模型插入企業用例——轉向實現更高性能的東西 , \"Savarese在新聞發布會上說 。
Salesforce的方法強調AI智能體需要在多樣化場景中可靠工作 , 而不是在狹窄任務中表現出色 。 該公司的\"企業通用智能\"(EGI)概念專注于構建在執行復雜商業任務時既有能力又一致的智能體 。
隨著企業繼續投資AI技術 , 像CRMArena-Pro這樣平臺的成功可能決定當前AI熱潮是否轉化為可持續的商業轉型 , 或成為技術承諾超過實際交付的另一個例子 。
這些研究計劃將在10月的Salesforce Dreamforce大會上展示 , 預計該公司將宣布更多AI發展 , 尋求在競爭日益激烈的企業AI市場中保持領導地位 。
Q&A
Q1:CRMArena-Pro是什么?它能解決什么問題?
A:CRMArena-Pro是Salesforce開發的商業運營\"數字孿生\"平臺 , 被稱為AI智能體的\"飛行模擬器\" 。 它主要解決AI智能體在演示中表現良好但在實際企業環境中失敗的問題 , 通過模擬真實商業場景對智能體進行壓力測試 。
Q2:為什么95%的企業AI試點項目會失敗?
A:根據MIT報告 , 企業AI部署面臨的主要挑戰包括:真實商業環境具有遺留軟件、不一致的數據格式和復雜工作流程;大語言模型在復雜商業場景中成功率僅為35%;缺乏嚴格的測試和驗證機制 。
Q3:Salesforce推出的CRM智能體基準包含哪些評估指標?
A:CRM智能體基準包含五個關鍵企業指標:準確性、成本、速度、信任與安全性 , 以及環境可持續性 。 其中可持續性指標特別值得注意 , 幫助企業將模型規模與任務復雜性對齊 , 在保持性能的同時減少環境影響 。


    推薦閱讀