Komprise推出AI數據清洗工具處理非結構化數據

Komprise推出AI數據清洗工具處理非結構化數據

數據管理公司Komprise正式發布了智能AI數據攝取產品 , 作為其智能數據工作流攝取引擎的重要組成部分 。
Komprise智能數據管理平臺提供單一平臺解決方案 , 能夠輕松分析、遷移、透明分層和管理混合環境中PB級文件和對象數據的生命周期 。 該平臺利用文件和對象元數據來管理非結構化數據資產 , 并提供策略驅動的工作流來管理數據放置和可訪問性 。 Komprise表示 , 系統能自動構建元數據 , 為企業提供所有文件數據的統一視圖 , 客戶\"可以通過簡單查詢精確找到AI用例所需的正確數據\" 。
最近的Komprise AI數據和企業風險調查發現 , IT領導者認為將正確的非結構化數據導入AI系統以及確保適當的AI數據治理是兩大主要挑戰 。
CEO Kumar Goswami表示:\"我們的使命是幫助組織理清非結構化數據的混亂狀況 , 通過AI獲得最大競爭優勢 。 Komprise智能AI數據攝取是智能數據工作流的最新進展 , 旨在解決客戶高效查找和移動正確數據到AI系統這一關鍵痛點 。 \"
該公司指出 , 非結構化數據缺乏組織性 , 包含大量無關、過時和重復文件 。 這會降低精確度 , 使上下文窗口混亂 , 并增加AI管道的延遲 。 研究顯示 , 在典型的檢索增強生成(RAG)系統中 , 每增加10000個非結構化文檔 , 效率就會下降10% , 導致準確性降低和結果不佳 。 無關的非結構化數據浪費昂貴的AI處理資源 , 推高成本 , 降低準確性 , 最終影響投資回報率 。
此外還存在敏感數據泄露風險 。 批量攝取數據可能導致AI工具中意外暴露敏感數據 , 違反隱私、安全和合規政策 。 智能AI數據攝取使用過濾器在攝取過程中通過連接器消除來自數據源的低質量和敏感數據 。 Komprise聲稱 , 由于采用大規模并行架構并最小化文件開銷 , 在基準測試中其攝取性能比AWS DataSync數據傳輸工具提高一倍 。
智能AI數據攝取具有敏感數據分類功能 , 內置個人身份信息(PII)和敏感數據處理能力 。 它自動維護每個攝取工作流的審計跟蹤 , 用于數據治理和審計 , 記錄誰、什么和何時 , 以及用于合規報告的數據譜系 。
Komprise表示 , 該工具可以將正確的數據攝取到Nvidia GPUDirect和NeMo數據存儲中進行AI模型訓練或推理 , 并在計算密集型處理完成后將數據移出 。 本質上 , Komprise提供了一種將數據攝取到AI就緒存儲中并進行生命周期管理的方式 。
Q&A
Q1:Komprise智能AI數據攝取工具主要解決什么問題?
A:主要解決非結構化數據混亂無序的問題 。 非結構化數據包含大量無關、過時和重復文件 , 會降低AI系統精確度 , 增加處理延遲 , 浪費昂貴的AI處理資源 。 該工具通過過濾器消除低質量和敏感數據 , 幫助企業精準找到AI所需的正確數據 。
【Komprise推出AI數據清洗工具處理非結構化數據】Q2:為什么非結構化數據會影響AI系統性能?
A:研究顯示 , 在檢索增強生成系統中 , 每增加10000個非結構化文檔 , 效率就會下降10% 。 無關數據會使上下文窗口混亂 , 增加AI管道延遲 , 降低準確性 , 導致結果不佳 , 同時浪費昂貴的AI處理資源 , 推高成本 。
Q3:Komprise工具在數據安全方面有什么保障?
A:該工具具有敏感數據分類功能 , 內置個人身份信息和敏感數據處理能力 , 可防止批量攝取時意外暴露敏感數據 。 同時自動維護每個攝取工作流的審計跟蹤 , 記錄詳細的操作信息和數據譜系 , 確保符合隱私、安全和合規政策要求 。


    推薦閱讀