一決高低

文章插圖
作者 | LAVANYA
譯者 | 陸離
責編 | Jane
出品 | AI科技大本營(ID: rgznai100)
【導讀】XGBoost、LightGBM 和 Catboost 是三個基于 GBDT(Gradient Boosting Decision Tree)代表性的算法實現,今天,我們將在三輪 Battle 中,一決高低也決生死,根據生死訓練和預測的時間、預測得分和可解釋性等評測指標,讓三個算法一決高下!
一言不合就 Battle
GBDT 是機器學習中的一個非常流行并且有效的算法模型,2014 年陳天奇博士提出的 XGBoost 算法就是 GBDT 一個重要實現 。但在大訓練樣本和高維度特征的數據環境下,一決高低是成語嗎,GBDT 算法的性能以及準確性卻面臨了極大的挑戰,隨后,2017 年 LightGBM 應勢而生,由微軟開源的一個機器學習框架;同年,俄羅斯的搜索字巨頭 Yandex 開源 Catboost 框架 。
XGBoost(eXtreme Gradient Boosting) 特點是計算速度快,模型表現好,可以用于分英文類和回歸問題中,號稱“比賽奪冠的必備殺器” 。LightGBM(Light Gradient Boosting Machine)的訓練速度和效率更快、使用的內存更低、準確率更高、并且支持并行化學習與處理大規模數據,一決高低下一句 。Catboost( Categorical Features+Gradient Boosting)采用的策略在降低過擬合的同時保證所有數據集都可用于學習 。性能卓越、魯棒性與通用性更好、易于使用而且更實用 。據其介紹 Catboost 的性能可以匹敵任何先進的機器學習算法高下 。
三個都是基于 GBDT 最具代表性的算法,都說自己的性能表現、效率及準確率很優秀,究竟它們誰更勝一籌呢?為了 PK 這三種算法之間的高低,我們給它們安排了一場“最浪漫的 Battle”,一決高低意思,通過三輪 Battle 讓 XGBoost、Catboost 和 LightGBM 一絕高下!
Round 1:分類模型,按照數據集Fashion MNIST把圖像分類(60000行數據,784個特征);Round 2:回歸模型,預測紐約出租車的票價(60000行數據,7個特征);Round 3:通過是一海量數據集,預測紐約出租車票價(200萬行數據,7個特征);
Battle 規則
在每一輪 PK 中,一決高低,我們都遵循以下步驟造句:
1、訓練 XGBoost、Catboost、LightGBM 三種算法的基準模型,每個模型使用相同的參數進行訓練;
【一決高低是四字詞語嗎 一決高低】
2、使用超參數高自動搜索模塊 GridSearchCV 來訓練 XGBoost、Catboost 和 LightGBM 三種算法的微調整模型;
3、衡量指標:
a.是什么訓練和預測的時間;
b.預測得分;
c.可解釋性(包括:特征重要性,SHAP 值,可視化樹);

文章插圖
PK 結果揭曉
(一)運行時間& 準確度得分
Top 1:LightGBM
Top 2:CatBoost
Top 3:XGBoost

文章插圖
在訓練和預測是什么時間兩方面,一決高低的反義詞,LightGBM 都是明顯的獲勝者,CatBoost 則一句緊隨其后,而 XGBoost 的訓練時間相對更久,但預測時間與其它兩個算法的差距沒有訓練時間那么大 。
在增強樹(boosted trees)中進行訓練的時間復雜度介于(log)和一決(2)之間,而對于預測,時間復雜度為(log2 ),其中 = 訓練實例決的數量,= 特征數量,以及 = 決策樹的深度 。
Round 1 ~ 3

文章插圖
相關經驗推薦
- 中國朝代順序表 隋唐五代是哪五代
- 生殖器皰疹的潛伏期是多久
- uniqlo是什么牌子的衣服 uniqlo是什么牌子
- 形容自己傻的經典句子 諷刺自己傻的句子 形容自己傻的經典句子
- 冬天哪些人不宜吃生姜 冬天為什么不宜吃生姜
- 番茄面膜的做法與功效視頻 番茄面膜的做法與功效
- 墻上非常小的蟲子是什么 墻上的小蟲子是什么蟲子
- 岫讀什么音? 岫讀什么音
- 抵押型REITs的特點是 抵押型REITs的特點是
- 桂枝配丹參的作用 桂枝配丹參的作用是什么
