分布式處理、分布式存儲方面新的研究方向有哪些?
分布式存儲這兩年的研究趨勢主要是效率、可擴展性和性能這三方面 。效率的興起得利于云存儲的大行其道,云存儲的投入一般比較大,所以成本的控制就很重要了,不論是Amazon、七牛還是其他廠商,都希望存儲的成本盡可能低,因此虛擬化存儲、Erasure Code和Deduplication還有一些研究人員投入精力;可擴展性這個方向投入的人就比較多了,這點從FAST/OSDI/SOSP等會議就能看得出來,主要是規模的擴展和移動平臺的擴展,大數據時代,數據人人有,存儲需求變大,原來的解決方案在這種規模下比較吃力,因此有了Haystack這樣的系統,移動平臺就更有花樣了,這點從蘋果iOS/Android存儲文件系統的迭代也可窺一斑;性能是個永恒的話題,總有需求不嫌性能高,曾經聽過某金融機構希望存儲能像內存一樣快,當然這也是可能的,于是Flash存儲相變存儲也就流行起來了,這也是各大會議一大主題 。
抖音服務器帶寬有多大,為什么能夠供那么多人同時刷?
抖音,百度,阿里云,騰訊都是自建的數據中心,都是T級別出口帶寬(總出口帶寬),也就是達到1T=1024G/s的出口帶寬,服務器總署基本都在20萬臺以上,甚至阿里云都超過了100萬臺 。字節跳動的數據中心總帶寬,可能在10TB級別左右,預期突破15TB級別不遠了 。一般情況下:總出口帶寬1TB,實際機房出口帶寬可能只有100G上下,這是采用雙(多)鏈路設計,雙出口實現動態流量分擔,總的出口帶寬可以達到T級別 。
大型數據中心想要同一時間有數億人在線,TB級別帶寬,CDN加速和多節點,負載均衡等等技術缺一不可 。(這個設計技術過于復雜,有相關專業朋友,可以評論簡要概述)CDN加速字節跳動有多少臺服務器?根據網絡數據整理,2017年2-3萬臺服務器,這個時候主要是租用服務器為主 。2018年,字節跳動自己建設了數據中心,最大的數據中心在河北懷來官廳湖新媒體產業園,一期5萬臺服務器 。
二期9萬臺服務器 。2018年,租用 自建的服務器數量達到17萬臺服務器 。2020年,根據字節跳動招聘公告的數據,顯示有42萬臺服務器 。比2018年增長了1.5倍 。(數據來自網絡)一個機柜中10-20臺服務器這部分服務器都是給中國區域使用,主要應用國內的抖音,西瓜視頻,今日頭條,飛書等產品 。在美國的TIKTOK是獨立出來的運營,數據在美國當地存儲和分發 。
2020年TIktok在美國也租用了近10萬臺服務器據Business Insider公布數據,2020年上半年,字節跳動在美國弗吉尼亞州北部租用了能耗達53兆瓦的數據中心 。可以容納數十萬臺服務器,占地面積可達數十萬平方英尺 。Tiktok在印度,新加坡都在投資建設數據中心 。聊完了服務器數量,那么咱們來點硬核的東西:字節跳動大型的數據中心出口帶寬是多少?知識點:所謂的出口帶寬,其實就是咱們普通人所說的下載帶寬 。
就是服務器給每一個手機分發數據總速度 。一般情況下,小型的IDC公司自建機房,比如一些網站公司,租用聯通,移動,電信的機房,可能總體出口帶寬只有5G 。超過30G那都是具備一定規模的企業 。網絡公司營收少說也是幾千萬的企業 。所以,經常能夠看到,一些規模還不錯的企業,基本上都不再自建機房,都是使用云主機 。例如阿里云的ECS,騰訊云,百度云,AWS(亞馬遜) 。
一般一個企業網站(企業官網),20M帶寬,4G內存,100G硬盤,一年價格也就4000-5000塊錢就足夠了,趕上做活動價格可能更便宜 。這里面就是帶寬最貴,當然增加帶寬,達到一定等級,例如訪問量增大,必須要增加內存和硬盤 。相比來說,帶寬增加的話,費用更貴一些 。【這里就跟你說明一下:帶寬比較昂貴,屬于稀缺資源】我們來看中國移動的一個機房:中國移動(河北石家莊)數據中心的數據:占地面積174畝,總建筑面積13萬平方米,規劃10棟單體建筑,全部建成后可提供約3萬個機架的裝機能力 。
推薦閱讀
- 怎么理解分布式,分布式面試題
- 分鐘搞懂分布式基礎概念,分布式計算
- 漫談分布式計算框架,分布式框架
- 漢能分布式發電怎么樣,光伏發電家用分布式怎么樣
- 榮耀分布式路由,榮耀cd15和cd20有什么區別
- 什么是分布式,分布式系統例子
- 別墅路由器哪個最好,分布式的子母路由器還是AC
- 分析工作中存在的問題有哪些問題嗎,剖析分布式光伏安全設計中存在的問題
- 分布式能源系統形式有哪些 論文,中國正研究美國分布式殺傷戰術
- asyn,Seata分布式事務
