數據挖掘的十大經典算法,什么是數據挖掘論文

5年前,我單位談的都是數據挖掘,也舉辦這類競賽,我們也掌握了數據挖掘的應用軟件和數據挖掘標準流程,比如sas,clementine等數據挖掘平臺 。從我工作經歷來講,數據挖掘是比較大眾化的說法,單位業務部門都知道這個概念,而機器學習屬于專業化的說法,現在業務部門不清楚機器學習究竟是什么 。
大數據、數據分析和數據挖掘的區別是什么?

數據挖掘的十大經典算法,什么是數據挖掘論文


對于很多人來講,這幾個概念經常分不清,我當初入門的時候也一樣,只不過那時候沒有大數據的概念,作為一個數據分析從業者,其實并不需要關注這些名字直接的本質區別,只要明白一件事,數據最終是為了決策服務 。鑒于大家對此還是有些好奇,這里我大概說說我的理解,希望和各位有所交流,不足之處還望大家指正 。先看看數據分析與數據挖掘的區別:首先要搞懂,什么是數據,什么是信息,這兩者本質的區別就是數據是存在的,不用人腦,而信息是需要人腦進行處理,上面意思呢?比如你裝修完了房子,打算開始買家具,那么第一件事就是用尺子量房屋各處的長度和寬度,這些都是可以主觀的看到的,客觀存在的,這就是數據,而信息則不同,例如你要去買沙發,你會說,我們放5米的沙發剛好,4米的有些短,看著不大氣,6米的太大了,看著不美觀,那這種就屬于信息,是需要人們經過大腦去判斷的,屬于主觀,判斷的依據就是數據(客觀存在) 。
其次,數據分析是對客觀存在的已知的數據,通過各類維度的分析,得出一個結論,例如我們發現用戶注冊量下降:可以從:區域上看,某區域的注冊量下降了x%渠道方面,搜索引擎帶來的注冊了下降了X%年齡來看,20歲~30歲的注冊量下降了X%等等,這樣不同的業務類型去看過去一段時間發展的趨勢來做結論判斷 。數據挖掘則更注重洞察數據本身的關系,從而獲得一些非顯型的結論,這是我們從數據分析中無法得到了,例如關聯分析可以知道啤酒與尿布的關系、決策樹可以知道你購買的概率、聚類分析可以知道你和誰類似,等等,重在從各個維度去發現數據之間的內在聯系因此兩者的目的不一樣,數據分析是有明確的分析群體,就是對群體進行各個維度的拆、分、組合,來找到問題的所在,而數據發挖掘的目標群體是不確定的,需要我們更多是是從數據的內在聯系上去分析,從而結合業務、用戶、數據進行更多的洞察解讀 。
舉個例子來理解一下:比如一個分析師一直單身,想去找一個女朋友,他可以很迅速的知道這個女孩的身高、收入、學歷等,但無法從這些數據中獲知這個女孩是不是適合自己、她的性格如何,這時我們就需要從一些日常行為的數據進行推斷,一種是主觀的推斷,我覺得、我估計、我認為,不可能在一起另一種是客觀 主觀的推斷,比如整合微博數據(可以知道微博的內容、發送行為、關注的領域等),和自己的行為進行數據挖掘,來看看數據內在的匹配度有多高,這時候,你會說,我們在一起的概率有90%,從而建立信心,開始行動.....當然統計學上講,100%的概率都未必發生,0%的概率都未必不發生,這只是小概率事件,不要讓這個成為你脫單的絆腳石 。
最后,思考的方式不同,一般來講,數據分析是根據客觀的數據進行不斷的驗證和假設,而數據挖掘是沒有假設的,但你也要根據模型的輸出給出你評判的標準 。我們經常做分析的時候,數據分析需要的思維性更強一些,更多是運用結構化、MECE的思考方式,類似程序中的IF else分析框架(假設) 客觀問題(數據分析)=結論(主觀判斷)而數據挖掘大多數是大而全,多而精,數據越多模型越可能精確,變量越多,數據之間的關系越明確什么變量都要,先從模型的意義上選變量(大而全,多而精),之后根據變量的相關系程度、替代關系、重要性等幾個方面去篩選,最后全扔到模型里面,最后從模型的參數和解讀的意義來判斷這種方式合不合理 。

推薦閱讀