一圖看遍9種距離度量,余弦距離

歐氏距離和余弦相似度的區別是什么?

一圖看遍9種距離度量,余弦距離


兩者都是評定個體間差異大小 。歐幾里得距離度量會受指標不同單位刻度(如秒、毫秒)的影響,所以一般需要先進行標準化 。空間向量余弦夾角的相似度度量不會受指標刻度的影響,余弦值區間位[-1,1] 。定義上的區別歐式距離歐氏距離就是我們平常所說的兩點直線距離,即n維空間中兩個點之間的實際距離,歐式距離越小相似度越大 。
余弦相似度余弦相似度用向量空間中兩個向量夾角的余弦值作為衡量兩個個體間差異的大小 。更加注重兩個向量在方向上的差異,而非距離或長度上 。兩個向量越相似夾角越小,余弦值越大 。從下面三維坐標系圖可以看出,歐氏距離dis(A,B)衡量的是空間各點的絕對距離,跟各個點的絕對坐標相關,體現的是距離上的差異 。而余弦距離(Cosθ)衡量的是空間向量的夾角,體現在方向(維度)上的差異,而不是距離或數值 。
【一圖看遍9種距離度量,余弦距離】應用上的區別如某A股票(400,800)從400塊漲到了800塊,某B股票(4,8)從4塊漲到了8塊B(4,8),同樣都是漲了50%,如果想要衡量股票的漲勢,則可以通過余弦相似度度量,發現A/B股票漲勢相似度高(相同) 。如果想要衡量股票價值,顯然需要使用歐氏距離來衡量,發現A股票價值明顯高于B股票,A/B股票相似度低 。

    推薦閱讀