數據挖掘的十大經典算法,什么是數據挖掘論文

2026-04-24 云知道論文

5年前，我單位談的都是數據挖掘，也舉辦這類競賽，我們也掌握了數據挖掘的應用軟件和數據挖掘標準流程，比如sas，clementine等數據挖掘平臺。從我工作經歷來講，數據挖掘是比較大眾化的說法，單位業務部門都知道這個概念，而機器學習屬于專業化的說法，現在業務部門不清楚機器學習究竟是什么。
大數據、數據分析和數據挖掘的區別是什么？

數據挖掘的十大經典算法,什么是數據挖掘論文

對于很多人來講，這幾個概念經常分不清，我當初入門的時候也一樣，只不過那時候沒有大數據的概念，作為一個數據分析從業者，其實并不需要關注這些名字直接的本質區別，只要明白一件事，數據最終是為了決策服務。鑒于大家對此還是有些好奇，這里我大概說說我的理解，希望和各位有所交流，不足之處還望大家指正。先看看數據分析與數據挖掘的區別：首先要搞懂，什么是數據，什么是信息，這兩者本質的區別就是數據是存在的，不用人腦，而信息是需要人腦進行處理，上面意思呢？比如你裝修完了房子，打算開始買家具，那么第一件事就是用尺子量房屋各處的長度和寬度，這些都是可以主觀的看到的，客觀存在的，這就是數據，而信息則不同，例如你要去買沙發，你會說，我們放5米的沙發剛好，4米的有些短，看著不大氣，6米的太大了，看著不美觀，那這種就屬于信息，是需要人們經過大腦去判斷的，屬于主觀，判斷的依據就是數據（客觀存在）。
其次，數據分析是對客觀存在的已知的數據，通過各類維度的分析，得出一個結論，例如我們發現用戶注冊量下降：可以從:區域上看，某區域的注冊量下降了x%渠道方面，搜索引擎帶來的注冊了下降了X%年齡來看，20歲~30歲的注冊量下降了X%等等，這樣不同的業務類型去看過去一段時間發展的趨勢來做結論判斷。數據挖掘則更注重洞察數據本身的關系，從而獲得一些非顯型的結論，這是我們從數據分析中無法得到了，例如關聯分析可以知道啤酒與尿布的關系、決策樹可以知道你購買的概率、聚類分析可以知道你和誰類似，等等，重在從各個維度去發現數據之間的內在聯系因此兩者的目的不一樣，數據分析是有明確的分析群體，就是對群體進行各個維度的拆、分、組合，來找到問題的所在，而數據發挖掘的目標群體是不確定的，需要我們更多是是從數據的內在聯系上去分析，從而結合業務、用戶、數據進行更多的洞察解讀。
舉個例子來理解一下：比如一個分析師一直單身，想去找一個女朋友，他可以很迅速的知道這個女孩的身高、收入、學歷等，但無法從這些數據中獲知這個女孩是不是適合自己、她的性格如何，這時我們就需要從一些日常行為的數據進行推斷，一種是主觀的推斷，我覺得、我估計、我認為，不可能在一起另一種是客觀主觀的推斷，比如整合微博數據（可以知道微博的內容、發送行為、關注的領域等），和自己的行為進行數據挖掘，來看看數據內在的匹配度有多高，這時候，你會說，我們在一起的概率有90%，從而建立信心，開始行動.....當然統計學上講，100%的概率都未必發生，0%的概率都未必不發生，這只是小概率事件，不要讓這個成為你脫單的絆腳石。
最后，思考的方式不同，一般來講，數據分析是根據客觀的數據進行不斷的驗證和假設，而數據挖掘是沒有假設的，但你也要根據模型的輸出給出你評判的標準。我們經常做分析的時候，數據分析需要的思維性更強一些，更多是運用結構化、MECE的思考方式，類似程序中的IF else分析框架（假設）客觀問題（數據分析）=結論（主觀判斷）而數據挖掘大多數是大而全，多而精，數據越多模型越可能精確，變量越多，數據之間的關系越明確什么變量都要，先從模型的意義上選變量（大而全，多而精），之后根據變量的相關系程度、替代關系、重要性等幾個方面去篩選，最后全扔到模型里面，最后從模型的參數和解讀的意義來判斷這種方式合不合理。

推薦閱讀

上一篇：究竟是個什么意思,賽博系統是什么意思

下一篇：幼兒園親子閱讀計劃內容怎么寫,親子閱讀計劃怎么寫