星座真的可以判定你的性格嗎 測試你的第二星座( 四 )


前面給你講散點圖的時候,講過神槍手謬誤,這是一個典型的控制數據范圍導致錯誤的數據結論邏輯 。我們在生活中也很容易遇到這種陷阱,所以我在這里再給你強調一下 。
很多統計結果其實是被操縱的,他們把某些機緣巧合之下比較好的結果的相關數據放到一起,去證明一個不可能的事情,但是如果你再換一組數據,那么你就沒有辦法證明這個因果關系 。例如曾經在國內炒的火爆的全國牙防組故事就和這樣的數據有關 。
在海外也有一些小眾的牙膏制造商,為了證明自己的牙膏比其他牙膏有效果,只把好的結果公之于眾 。包括很多“偽學術論文”引用的數據,也不是多次統計的結果,而是選取最優的結論給出來 。
所以你在看最終數據分析報告的時候,一定要看它的數據是不是先有槍眼再畫靶子,或者先找到滿意的結果再給你看統計數據,我們需要的是通過大量的隨機樣本給出的結果 。
時間長度不足——替代終點問題
還有一些數據在分析和統計的時候,由于時間長度不夠,會造成數據統計的結果不準確 。這個在學術上我們叫做“替代終點問題”( surrogate endpoint problem) 。
比如我們要檢測某種藥物是不是可以延年益壽,這其實就需要投入大量的時間和資金,因為我們必須得等到人們去世以后才能知道他們的壽命 。
所以對于現在各種各樣的保健品,如果它的宣傳的作用是可以延年益壽的話,那大部分都是收你“智商稅”的,因為這種測試非常難以完全實現 。即使服用這些藥物的人最后長壽了,那也不能夠代表這兩種之間存在著因果關系,很有可能只是前面講到的相關性 。
同理,你看這么多風險投資人在選擇創業公司的時候,其實是靠大的方向和辨識團隊來進行投資,而不是靠具體某些數據來表明這個創業公司是否靠譜 。因為相對一個創業公司來講,公司的成立時間太短了,公司的數據不代表趨勢,這就是替代終點問題 。
小結
學了這些場景以后,我們回過頭來再看看開頭的那些問題 。
打籃球真的能讓人長高嗎?這很有可能是因為長高的人都會去打籃球,而不是打籃球讓人長高——因果倒置 。喝咖啡可以長壽?常喝咖啡的人一般都是白領階級,他們的營養供給更高,所以他們可以長壽,而不是因為咖啡讓他們長壽——相關性而非因果關系 。吃不吃早飯其實和你肥不肥胖沒有什么關系,運動健康才和你的肥胖有關系——相關性而非因果關系 。愛笑的女孩子通常運氣都不會太差?愛笑的女孩其實運氣也有差的,最后她就不笑了,事實是因為運氣好的女孩她們才會愛笑——因果倒置 。會撒嬌的女人更好命?女人好不好命其實與另一半或者周圍的人和環境更有關系,而不是和你會不會撒嬌有關系——需要找到遺漏的 X 變量 。這節課是我們數據分析基礎篇的最后一節課了 。在前面的課程里,我給你講了非常多的數據統計的方法,你可以很快地把這些數據分析方法應用到自己的工作當中 。今天我們其實是換了個思路,給你主要講的是數據本身的局限性 。數字相關并不等于因果關系,對于做數據分析和做數據決策來講,我們更要懂業務才能夠去了解真相,不然很容易就被數據忽悠了 。
數據分析就像是一門中西醫結合的醫學,既要有本章前面給你的這些數據分析辦法,也要有接下來的章節會講到的算法模型和工具 。最終還是需要你這個人像老中醫一樣,能夠對這個業務本質有深刻的理解和把握,才能給出最終正確的結論 。讓我們一起持續學習,一起共勉 。

星座真的可以判定你的性格嗎 測試你的第二星座

推薦閱讀