卡耐基梅隆團隊聲稱基于向量的系統可大幅提升PostgreSQL性能

卡耐基梅隆團隊聲稱基于向量的系統可大幅提升PostgreSQL性能

根據一位數據庫研究員的說法 , 基于向量嵌入算法的自動化數據庫系統可以將常見PostgreSQL數據庫服務的默認設置性能提升2到10倍 。
卡耐基梅隆大學數據庫組副教授Andy Pavlo在接受The Register采訪時解釋說 , 自動化數據庫調優和優化選項的問題——這一直是數據庫管理員(DBA)的珍貴技能——與單個模型難以一次性掌握所有參數有關 。
雖然經驗豐富的數據庫管理員可能有調優系統性能的經驗 , 但構建現代系統的開發者往往會使用來自主流云服務提供商的數據庫服務——比如AWS的關系數據庫服務(RDS)——而他們不太可能了解如何調優這些服務 。
數據庫為系統構建者提供了大量選擇來獲得更好的性能 。 Pavlo說 , 這些選擇主要分為四組:系統參數 , 如運行時參數和內存緩存策略;物理設計 , 如數據結構或索引類型;查詢調優選項 , 控制數據庫如何執行查詢;以及生命周期管理 , 涉及何時升級軟件或硬件的長期決策 。
雖然機器學習技術已經構建了智能體來嘗試單獨解決這些問題 , 但將它們作為一個整體來處理會導致驚人數量的選擇和選擇組合 , 其中許多是相互依賴的 。 早期的研究試圖找出這些調優的最佳序列 , 但他們發現解決方案可能依賴于工作負載 , 而在解決方案路徑上做出的選擇意味著可能錯過最佳方案 。
Pavlo的團隊希望同時調優所有智能體 , 但問題空間如此龐大 , 任何系統在找到答案之前都會耗盡計算時間 , 尤其是因為系統必須運行查詢才能發現是否得到了最優解決方案 。
為了解決這個問題 , 該團隊研究了Google 2016年的一篇論文 , 該論文提出使用關于行動的先驗信息將它們嵌入到一個連續空間中 , 在此基礎上可以進行泛化 。 這被稱為Wolpertinger架構 , 以德國民間傳說中的神話生物命名 , 它使用向量嵌入來測量早期行動的相似性 , 就像大語言模型使用它們來判斷詞語相似性一樣 。
采用這種方法 , Pavlo的團隊構建了一個名為Proto-X的所謂整體調優智能體 , 試圖為數據庫調優的所有可能選擇一次性獲得最優輸出 , 而不必運行所有單獨的調優智能體 。
\"你創建一個編碼器 , 將數據庫的配置轉換為特征向量 , 并將其放入高維潛在空間 。 你還訓練一個解碼器 , 然后可以獲取嵌入來源的特征向量 , 并將其重新放入數據庫配置中 , \"他說 。
Pavlo說 , 強化學習算法可以學習如何對數據庫調優選擇進行排序 , 決定進行更多探索或利用之前已經看到的內容 , 收斂到更好的配置 。
Pavlo說 , 運行Proto-X工具可能需要12小時才能得出\"驚人\"的結果 。 但通過使用基于大語言模型的\"增強器\"可以減少這個時間 , 該增強器獲取其他類似數據庫的訓練數據 , 并識別與目標數據庫相似的性能配置文件 。
\"我們新的大語言模型增強提供了知識遷移 , 將12小時的時間縮短到大約50分鐘 , \"Pavlo說 。
作為最近一篇論文的主題 , 大語言模型增強器還可以在緊急情況下響應時間限制和數據庫的當前狀態 。
\"如果你的數據庫出了問題 , 你不會想要運行一個可能需要一小時才能計算出某些修復方案的算法 , \"Pavlo說 。 \"你想立即運行一些東西來嘗試緩解問題 。 然后一旦情況穩定 , 它就可以運行長期算法——使用大語言模型增強器的整體算法——需要更多時間 , 但提供你所需的預防性維護 , 確保問題在未來不會發生 。 這就是改變游戲規則的重大變化 。 \"
自動駕駛數據庫的概念可能至關重要 , 不僅對缺乏數據庫管理經驗的開發者如此 , 隨著\"感覺式編程\"概念的傳播更是如此 。
\"我相信 , 通過添加大語言模型增強 , 我們已經達到了可以實現完全自動駕駛數據庫系統的程度 , 不需要任何人工干預 , \"Pavlo說 。 \"在感覺式編程時代 , 這絕對至關重要 , 因為有一群智能體生成的應用程序 , 人類永遠不需要查看 。 \"
Pavlo正在建立一家新公司 , 將首先為PostgreSQL數據庫服務提供技術 , 提供整體調優和大語言模型增強 。 該公司名為So You Don't Have To (SYDHT) , 預計明年推出 。
他說 , 通過基于Wolpertinger的Proto-X , 用戶可以在PostgreSQL的標準數據庫服務設置上獲得10倍的性能提升 。
Q&A
Q1:Proto-X是什么?它能做什么?
A:Proto-X是卡耐基梅隆大學團隊開發的整體調優智能體 , 它可以同時優化數據庫的所有調優選擇 , 而不需要運行多個單獨的調優智能體 。 通過向量嵌入技術 , Proto-X能夠將PostgreSQL數據庫性能提升2到10倍 。
Q2:大語言模型增強器如何加速數據庫調優過程?
A:大語言模型增強器通過獲取其他類似數據庫的訓練數據 , 識別與目標數據庫相似的性能配置文件 , 提供知識遷移 。 這使得原本需要12小時的調優過程縮短到大約50分鐘 , 大大提高了效率 。
Q3:SYDHT公司什么時候推出 , 主要提供什么服務?
A:SYDHT(So You Don't Have To)公司預計明年推出 , 主要為PostgreSQL數據庫服務提供整體調優和大語言模型增強技術 , 幫助用戶實現數據庫的自動化管理和性能優化 。
【卡耐基梅隆團隊聲稱基于向量的系統可大幅提升PostgreSQL性能】

    推薦閱讀