『壹』 大型分布式網站架構設計與實踐適合php嗎
適合,php非常好部署分布式架構 ngxin+fpm swoole都可以
『貳』 怎麼搭建分布式伺服器
如何搭建分布式網站伺服器,比如我有3台伺服器ABC,需要搭建分布式服務。也就需要建立IIS 還由DNS WIN 伺服器的 還有更改主機名 很麻煩的,這個需要專業的IT人員來操作的。
以下資料作為參考:
DNS輪循
首先介紹一個DNS系統:傳統的DNS解析都是一個域名對應一個IP地址,但是通過DNS輪循技術(負載平衡技術)可以做到一個域名對應到多個IP 上. 這樣大家難免就會問,這個技術有什麼用呢?
DNS輪循是指將相同的域名解釋到不同的IP,隨機使用其中某台主機的技術,該項技術可以智能的調整網站的訪問量到不同伺服器上,減輕網站伺服器的壓力,實現負載勻衡;如果您感覺到單一的主機已經不堪負載你網站日益增長的訪問,那麼建議您採用我們的DNS輪循技術。
DNS輪循系統可以根據您的需求設置N台主機作為WEB伺服器。目前已有越來多大型的WEB伺服器使用DNS輪循來實現負載均衡,服務的分布規劃更便捷,擴展性更好,從而提高了網站的穩定性和訪問效率,那些大量數據文件請求的客戶也得到了更快的響應。
DNS輪循還將給您的網站提供這樣的改進,諸如您的網站的數據使用量一直處於不斷的增長當中,當達到伺服器資源運行瓶頸的情況
下,由於採用了DNS輪循技術,您只需要增加伺服器數量就可以平滑升級,而且偶然故障或其他意外情況造成的損失得以避免,7×24小時可靠性的持續的運行
成為可能。
如果您真的希望自己的網站能夠一直穩定的在線運行,盡量的減少宕機的比率,那麼除了採用比較好的網站空間技術支持之外,還可以採用時代互聯域名的DNS輪循功能來實現網站的永久在線負載平衡
負載均衡是由多台伺服器以對稱的方式組成一個伺服器集合,每台伺服器都具有等價的地位,都可以單獨對外提供服務而無須其
他伺服器的輔助。通過某種負載分擔技術,將外部發送來的請求均勻分配到對稱結構中的某一台伺服器上,而接收到請求的伺服器獨立地回應客戶的請求。均衡負載
能夠平均分配客戶請求到伺服器列陣,籍此提供快速獲取重要數據,解決大量並發訪問服務問題。這種群集技術可以用最少的投資獲得接近於大型主機的性能。
網路負載均衡的優點
第一,網路負載均衡能將傳入的請求傳播到多達32台伺服器上,即可以使用最多32台伺服器共同分擔對外的網路請求服務。網路負載均衡技術保證即使是在負載很重的情況下,伺服器也能做出快速響應;
第二,網路負載均衡對外只需提供一個IP地址(或域名);
第三,當網路負載均衡中的一台或幾台伺服器不可用時,服務不會中斷。網路負載均衡自動檢測到伺服器不可用時,能夠迅速在剩餘的
伺服器中重新指派客戶機通訊。這項保護措施能夠幫助你為關鍵的業務程序提供不中斷的服務,並可以根據網路訪問量的增加來相應地增加網路負載均衡伺服器的數
量;
第四,網路負載均衡可在普通的計算機上實現。
網路負載均衡的實現過程
在Windows Server 2003中,網路負載均衡的應用程序包括Internet信息服務(IIS)、ISA
Server 2000防火牆與代理伺服器、VPN虛擬專用網、終端伺服器、Windows Media
Services(Windows視頻點播、視頻廣播)等服務。同時,網路負載均衡有助於改善伺服器的性能和可伸縮性,以滿足不斷增長的基於
Internet客戶端的需求。
網路負載均衡可以讓客戶端用一個邏輯Internet名稱和虛擬IP地址(又稱群集IP地址)訪問群集,同時保留每台計算機各自的名稱。下面,我們將在兩台安裝Windows Server 2003的普通計算機上,介紹網路負載均衡的實現及應用。
這兩台計算機中,一台計算機名稱為A,IP地址為192.168.0.7;另一台名為B,IP地址為192.168.0.8。
規劃網路負載均衡專用虛擬IP地址為192.168.0.9。當正式應用時,客戶機只需要使用IP地址192.168.0.9來訪問伺服器,網路服務均衡
會根據每台伺服器的負載情況自動選擇192.168.0.7或者192.168.0.8對外提供服務。具體實現過程如下:
在實現網路負載均衡的每一台計算機上,只能安裝TCP/IP協議,不要安裝任何其他的協議(如IPX協議或者NetBEUI協議),這可以從「網路連接屬性」中查看。
第一步,分別以管理員身份登錄A機和B機,打開兩台機的「本地連接」屬性界面,勾選「此連接使用下列項目」中的「負載均衡」項並進入「屬性」對話框,將IP地址都設為192.168.0.9(即負載均衡專用IP),將子網掩碼設置為255.255.255.0;
第二步,分別進入A機和B機的「Internet協議(TCP/IP)」屬性設置界面,點擊「高級」按鈕後,在彈出的「高級TCP/IP設置」界面中添加IP地址192.168.0.9和子網掩碼設置為255.255.255.0。
第三步,退出兩台計算機的「本地連接屬性」窗口,耐心等一會兒讓系統完成設置。
以後,如果這兩台伺服器不能滿足需求,可以按以上步驟添加第三台、第四台計算機到網路負載均衡系統中以滿足要求。
『叄』 大型網站架構模式有哪些
1.分布式
對於大型網站,分層和分割的一個主要目的是為了切分後的模塊便於分布式部署,即將不同模塊部署在不同的伺服器上,通過遠程調用協同工作。分布式意味著可以使用更多的計算機完成同樣的功能,計算機越多,CPU、內存、存儲資源也就越多,能夠處理的並發訪問和數據量就越大,進而能夠為更多的用戶提供服務。
2.分層
分層是企業應用系統中最常見的一種架構模式,將系統在橫向維度上切分成幾個部分,每個部分負責一部分相對比較單一的職責,然後通過上層對下層的依賴和調用組成一個完整的系統。
分層結構在計算機世界中無處不在,網路的7層通信協議是一種分層結構;計算機硬體、操作系統、應用軟體也可以看作是一種分層結構。在大型網站架構中也採用分層結構,將網站軟體系統分為應用層、服務層、數據層。
3.分割
如果說分層是將軟體在橫向方面進行切分,那麼分割就是在縱向方面對軟體進行切分。
網站越大,功能越復雜,服務和數據處理的種類也越多,將這些不同的功能和服務分割開來,包裝成高內聚低耦合的模塊單元,一方面有助於軟體的開發和維護;另一方面,便於不同模塊的分布式部署,提高網站的並發處理能力和功能擴展能力。
4.集群
使用分布式雖然已經將分層和分割後的模塊獨立部署,但是對於用戶訪問集中的模塊(比如網站的首頁),還需要將獨立部署的伺服器集群化,即多台伺服器部署相同應用構成一個集群,通過負載均衡設備共同對外提供服務。
5.緩存
緩存就是將數據存放在距離計算最近的位置以加快處理速度。緩存是改善軟體性能的第一手段,現代CPU越來越快的一個重要因素就是使用了更多的緩存,在復雜的軟體設計中,緩存幾乎無處不在。大型網站架構設計在很多方面都使用了緩存設計。
6.非同步
計算機軟體發展的一個重要目標和驅動力是降低軟體耦合性。事物之間直接關系越少,就越少被彼此影響,越可以獨立發展。大型網站架構中,系統解耦合的手段除了前面提到的分層、分割、分布等,還有一個重要手段是非同步,業務之間的消息傳遞不是同步調用,而是將一個業務操作分成多個階段,每個階段之間通過共享數據的方式非同步執行進行協作。
『肆』 大規模,高並發網站開發經驗都有哪些
高並發量網站解決方案
一個小型的網站,可以使用最簡單的html靜態頁面就實現了,配合一些圖片達到美化效果,所有的頁面均存放在一個目錄下,這樣的網站對系統架構、性能的要求都很簡單。隨著互聯網業務的不斷豐富,網站相關的技術經過這些年的發展,已經細分到很細的方方面面,尤其對於大型網站來說,所採用的技術更是涉及面非常廣,從硬體到軟體、編程語言、資料庫、WebServer、防火牆等各個領域都有了很高的要求,已經不是原來簡單的html靜態網站所能比擬的。
大型網站,比如門戶網站,在面對大量用戶訪問、高並發請求方面,基本的解決方案集中在這樣幾個環節:使用高性能的伺服器、高性能的資料庫、高效率的編程語言、還有高性能的Web容器。這幾個解決思路在一定程度上意味著更大的投入。
1、HTML靜態化
其實大家都知道,效率最高、消耗最小的就是純靜態化的html頁面,所以我們盡可能使我們的網站上的頁面採用靜態頁面來實現,這個最簡單的方法其實也是最有效的方法。但是對於大量內容並且頻繁更新的網站,我們無法全部手動去挨個實現,於是出現了我們常見的信息發布系統CMS,像我們常訪問的各個門戶站點的新聞頻道,甚至他們的其他頻道,都是通過信息發布系統來管理和實現的,信息發布系統可以實現最簡單的信息錄入自動生成靜態頁面,還能具備頻道管理、許可權管理、自動抓取等功能,對於一個大型網站來說,擁有一套高效、可管理的CMS是必不可少的。
除了門戶和信息發布類型的網站,對於交互性要求很高的社區類型網站來說,盡可能的靜態化也是提高性能的必要手段,將社區內的帖子、文章進行實時的靜態化、有更新的時候再重新靜態化也是大量使用的策略,像Mop的大雜燴就是使用了這樣的策略,網易社區等也是如此。
同時,html靜態化也是某些緩存策略使用的手段,對於系統中頻繁使用資料庫查詢但是內容更新很小的應用,可以考慮使用html靜態化來實現。比如論壇中論壇的公用設置信息,這些信息目前的主流論壇都可以進行後台管理並且存儲在資料庫中,這些信息其實大量被前台程序調用,但是更新頻率很小,可以考慮將這部分內容進行後台更新的時候進行靜態化,這樣避免了大量的資料庫訪問請求。
2、圖片伺服器分離
大家知道,對於Web伺服器來說,不管是Apache、IIS還是其他容器,圖片是最消耗資源的,於是我們有必要將圖片與頁面進行分離,這是基本上大型網站都會採用的策略,他們都有獨立的、甚至很多台的圖片伺服器。這樣的架構可以降低提供頁面訪問請求的伺服器系統壓力,並且可以保證系統不會因為圖片問題而崩潰。
在應用伺服器和圖片伺服器上,可以進行不同的配置優化,比如apache在配置ContentType的時候可以盡量少支持、盡可能少的LoadMole,保證更高的系統消耗和執行效率。
3、資料庫集群、庫表散列
大型網站都有復雜的應用,這些應用必須使用資料庫,那麼在面對大量訪問的時候,資料庫的瓶頸很快就能顯現出來,這時一台資料庫將很快無法滿足應用,於是我們需要使用資料庫集群或者庫表散列。
在資料庫集群方面,很多資料庫都有自己的解決方案,Oracle、Sybase等都有很好的方案,常用的MySQL提供的Master/Slave也是類似的方案,您使用了什麼樣的DB,就參考相應的解決方案來實施即可。
上面提到的資料庫集群由於在架構、成本、擴張性方面都會受到所採用DB類型的限制,於是我們需要從應用程序的角度來考慮改善系統架構,庫表散列是常用並且最有效的解決方案。
我們在應用程序中安裝業務和應用或者功能模塊將資料庫進行分離,不同的模塊對應不同的資料庫或者表,再按照一定的策略對某個頁面或者功能進行更小的資料庫散列,比如用戶表,按照用戶ID進行表散列,這樣就能夠低成本的提升系統的性能並且有很好的擴展性。
sohu的論壇就是採用了這樣的架構,將論壇的用戶、設置、帖子等信息進行資料庫分離,然後對帖子、用戶按照板塊和ID進行散列資料庫和表,最終可以在配置文件中進行簡單的配置便能讓系統隨時增加一台低成本的資料庫進來補充系統性能。
4、緩存
緩存一詞搞技術的都接觸過,很多地方用到緩存。網站架構和網站開發中的緩存也是非常重要。這里先講述最基本的兩種緩存。高級和分布式的緩存在後面講述。
架構方面的緩存,對Apache比較熟悉的人都能知道Apache提供了自己的緩存模塊,也可以使用外加的Squid模塊進行緩存,這兩種方式均可以有效的提高Apache的訪問響應能力。
網站程序開發方面的緩存,Linux上提供的Memory Cache是常用的緩存介面,可以在web開發中使用,比如用Java開發的時候就可以調用MemoryCache對一些數據進行緩存和通訊共享,一些大型社區使用了這樣的架構。另外,在使用web語言開發的時候,各種語言基本都有自己的緩存模塊和方法,PHP有Pear的Cache模塊,Java就更多了,.net不是很熟悉,相信也肯定有。
5、鏡像
鏡像是大型網站常採用的提高性能和數據安全性的方式,鏡像的技術可以解決不同網路接入商和地域帶來的用戶訪問速度差異,比如ChinaNet和ENet之間的差異就促使了很多網站在教育網內搭建鏡像站點,數據進行定時更新或者實時更新。在鏡像的細節技術方面,這里不闡述太深,有很多專業的現成的解決架構和產品可選。也有廉價的通過軟體實現的思路,比如Linux上的rsync等工具。
6、負載均衡
負載均衡將是大型網站解決高負荷訪問和大量並發請求採用的高端解決辦法。
負載均衡技術發展了多年,有很多專業的服務提供商和產品可以選擇,我個人接觸過一些解決方法,其中有兩個架構可以給大家做參考。
(1)、硬體四層交換
第四層交換使用第三層和第四層信息包的報頭信息,根據應用區間識別業務流,將整個區間段的業務流分配到合適的應用伺服器進行處理。
第四層交換功能就像是虛IP,指向物理伺服器。它傳輸的業務服從的協議多種多樣,有HTTP、FTP、NFS、Telnet或其他協議。這些業務在物理伺服器基礎上,需要復雜的載量平衡演算法。在IP世界,業務類型由終端TCP或UDP埠地址來決定,在第四層交換中的應用區間則由源端和終端IP地址、TCP和UDP埠共同決定。
在硬體四層交換產品領域,有一些知名的產品可以選擇,比如Alteon、F5等,這些產品很昂貴,但是物有所值,能夠提供非常優秀的性能和很靈活的管理能力。「Yahoo中國」當初接近2000台伺服器,只使用了三、四台Alteon就搞定了。
(2)、軟體四層交換
大家知道了硬體四層交換機的原理後,基於OSI模型來實現的軟體四層交換也就應運而生,這樣的解決方案實現的原理一致,不過性能稍差。但是滿足一定量的壓力還是游刃有餘的,有人說軟體實現方式其實更靈活,處理能力完全看你配置的熟悉能力。
軟體四層交換我們可以使用Linux上常用的LVS來解決,LVS就是Linux Virtual Server,他提供了基於心跳線heartbeat的實時災難應對解決方案,提高系統的強壯性,同時可供了靈活的虛擬VIP配置和管理功能,可以同時滿足多種應用需求,這對於分布式的系統來說必不可少。
一個典型的使用負載均衡的策略就是,在軟體或者硬體四層交換的基礎上搭建squid集群,這種思路在很多大型網站包括搜索引擎上被採用,這樣的架構低成本、高性能還有很強的擴張性,隨時往架構裡面增減節點都非常容易。
對於大型網站來說,前面提到的每個方法可能都會被同時使用到,這里介紹得比較淺顯,具體實現過程中很多細節還需要大家慢慢熟悉和體會。有時一個很小的squid參數或者apache參數設置,對於系統性能的影響就會很大。
最新:CDN加速技術
CDN的全稱是內容分發網路。其目的是通過在現有的Internet中增加一層新的網路架構,將網站的內容發布到最接近用戶的網路「邊緣」,使用戶可以就近取得所需的內容,提高用戶訪問網站的響應速度。
CDN有別於鏡像,因為它比鏡像更智能,或者可以做這樣一個比喻:CDN=更智能的鏡像+緩存+流量導流。因而,CDN可以明顯提高Internet網路中信息流動的效率。從技術上全面解決由於網路帶寬小、用戶訪問量大、網點分布不均等問題,提高用戶訪問網站的響應速度。
CDN的類型特點
CDN的實現分為三類:鏡像、高速緩存、專線。
鏡像站點(Mirror Site),是最常見的,它讓內容直接發布,適用於靜態和准動態的數據同步。但是購買和維護新伺服器的費用較高,還必須在各個地區設置鏡像伺服器,配備專業技術人員進行管理與維護。對於大型網站來說,更新所用的帶寬成本也大大提高了。
高速緩存,成本較低,適用於靜態內容。Internet的統計表明,超過80%的用戶經常訪問的是20%的網站的內容,在這個規律下,緩存伺服器可以處理大部分客戶的靜態請求,而原始的伺服器只需處理約20%左右的非緩存請求和動態請求,於是大大加快了客戶請求的響應時間,並降低了原始伺服器的負載。
CDN服務一般會在全國范圍內的關鍵節點上放置緩存伺服器。
專線,讓用戶直接訪問數據源,可以實現數據的動態同步。
CDN的實例
舉個例子來說,當某用戶訪問網站時,網站會利用全球負載均衡技術,將用戶的訪問指向到距離用戶最近的正常工作的緩存伺服器上,直接響應用戶的請求。
當用戶訪問已經使用了CDN服務的網站時,其解析過程與傳統解析方式的最大區別就在於網站的授權域名伺服器不是以傳統的輪詢方式來響應本地DNS的解析請求,而是充分考慮用戶發起請求的地點和當時網路的情況,來決定把用戶的請求定向到離用戶最近同時負載相對較輕的節點緩存伺服器上。
通過用戶定位演算法和伺服器健康檢測演算法綜合後的數據,可以將用戶的請求就近定向到分布在網路「邊緣」的緩存伺服器上,保證用戶的訪問能得到更及時可靠的響應。
由於大量的用戶訪問都由分布在網路邊緣的CDN節點緩存伺服器直接響應了,這就不僅提高了用戶的訪問質量,同時有效地降低了源伺服器的負載壓力。
『伍』 製作分布式網站,如豆瓣網,那種可以容納百萬人級別訪問的網站要多少錢
這個要看你的需求了,看你的系統的瓶頸在什麼地方,例如你的數據的操作不太多那麼對你的web伺服器要求就比較高了,一般解決方法可以從構架上隔離,例如同一台伺服器但是不是同一個系統,圖片和一般的表現分類。當然這是在經濟不是很允許的情況下,要是經濟允許的話,可以多加伺服器,利用負載平衡,要是這么做的話就要購置一些專業的硬體或軟體解決方案了。
如果網站的瓶頸在於數據讀寫也就是I/O上的問題那就要添加資料庫伺服器。
當然大型網站解決方案的王道還是緩存加負載平衡啊。另外一個合理高效的系統構架更是必不可少的。
『陸』 求 《大型分布式網站架構設計與實踐》陳康賢 全章 PDF
我幫你下好了共享的我的網路雲盤裡面了請去下載記得好評哦~哈哈
『柒』 MySQL大型分布式集群具體怎麼做
1、主要解決針對大型網站架構中持久化部分中,大量數據存儲以及高並發訪問所帶來是數據讀寫問題。分布式是將一個業務拆分為多個子業務,部署在不同的伺服器上。集群是同一個業務,部署在多個伺服器上。
2、著重對數據切分做了細致豐富的講解,從數據切分的原理出發,一步一步深入理解數據的切分,通過深入理解各種切分策略來設計和優化我們的系統。這部分中我們還用到了資料庫中間件和客戶端組件來進行數據的切分,讓廣大網友能夠對數據的切分從理論到實戰都會有一個質的飛躍。
通過分布式+集群的方式來提高io的吞吐量,以及資料庫的主從復制,主主復制,負載均衡,高可用,分庫分表以及資料庫中間件的使用。
『捌』 大型互聯網公司項目如何架構
初始階段的網站架構
大型網站都是從小型網站發展而來,網站架構也是一樣,是從小型網站架構逐步演化而來,小型網站最開始沒有太多人訪問,只需要一台伺服器就綽綽有餘,這時的網站架構如圖。
應用程序,資料庫,文件等所有的資源都在一台伺服器上。通常伺服器操作系統使用Linux,應用程序使用PHP開發,然後部署在Apache上,資料庫使用MySql,匯集各種開源軟體及一台廉價伺服器就可以開始網站的發展之路了。
應用服務和數據服務分離
隨著網站業務的發展,一台伺服器逐漸不能滿足需求:越來越多的用戶訪問導致性能越來越差,越來越多的數據導致存儲空間不足,這時就需要將應用和數據分離,應用和數據分離後整個網站使用三台伺服器:應用伺服器,文件伺服器和資料庫伺服器,如下圖所示,這三台伺服器對硬體資源的要求各不相同,應用伺服器需要處理大量的業務邏輯,因此需要更快更強大的CPU,資料庫伺服器需要快速磁碟檢索和數據緩存,因此需要更快的硬碟和更大的內存,文件伺服器需要儲存大量用戶上傳的文件,因此需要更大的硬碟。
應用和數據分離後,不同特性的伺服器承擔不同的服務角色,網站的並發處理能力和數據存儲空間得到了很大改善,支持網站業務進一步發展,但是隨著用戶逐漸增多,網站又一次面臨挑戰:資料庫壓力太大導致訪問延遲,進而影響整個網站的性能,用戶體驗受到影響,這時需要對網站架構進一步優化。
使用緩存改善網站性能
網站訪問特點和現實世界的財富分配一樣遵循二八定律:80%的業務訪問集中在20%的數據上。淘寶買家瀏覽的商品集中在少部分成交數多、評價良好的商品上;網路搜索關鍵詞集中在少部分熱門詞彙上;經常登錄的用戶才會發微博、看微博,而這部分用戶也只佔總用戶數目的一小部分。
既然大部分的業務訪問集中在,那麼如果把這一小部分數據緩存在內存中,就可以減少資料庫的訪問壓力。網站使用的緩存分為兩種:緩存在應用伺服器上的本地緩存和緩存在專門的分布式緩存伺服器上的遠程緩存。本地緩存的訪問速度更快一些,但是受應用伺服器內存限制,其緩存數量有限,而且會出現和應用程序爭用內存的情況。遠程分布式可以使用集群的方式,部署大內存的伺服器作為專門的緩存伺服器,可以在理論上做到不受內存容量限制的緩存服務。
使用緩存後,數據訪問壓力得到有效緩解,但是單一應用伺服器能夠處理的請求連接有限,在網站的訪問高峰期,應用伺服器會成為整個網站的瓶頸。
使用應用伺服器集群改善網站的並發處理能力
使用集群是網站解決高並發,海量問題的常用手段,當一台伺服器的處理能力、儲存空間不足時,不要企圖去換更強大的伺服器,對大型網站而言,不管多麼強大的伺服器,都滿足不了網站持續增長的業務需求,這種情況下,更恰當的做法是增加一台伺服器分擔原有伺服器的訪問及存儲壓力。
對網站而言,只要能通過一台伺服器的方式改善負載壓力,就可以以同樣的方式持續增加伺服器不斷改善系統性能,從而實現系統的可伸縮性,應用伺服器實現集群是網站可伸縮集群架構設計中較為簡單成熟的一種。如下圖所示。
通過負載均衡調度伺服器,可將來自用戶瀏覽器的請求分發到應用伺服器集群中的任何一台伺服器上,如果有更多的用戶,就在集群中加入更多的應用伺服器,使應用伺服器的負載壓力不在成為網站的瓶頸。
資料庫讀寫分離
網站使用緩存後,大部分數據操作訪問都可以不通過資料庫就能完成,但是仍有一部分讀操作,(緩存訪問不命中、緩存過期)和全部的寫操作,需要訪問資料庫,在網站的用戶達到一定規模後,資料庫因為負載壓力過高而成為網站的瓶頸。
目前大部分的主流資料庫都提供主從熱備功能,通過配置兩台資料庫主從關系,可以將一台資料庫伺服器的數據更新同步到另一台伺服器上。網站利用資料庫的這一功能,實現資料庫讀寫分離,從而改善資料庫負載壓力。
應用伺服器在寫數據的時候,訪問主資料庫,主資料庫通過主從復制機制將數據更新同步到從資料庫,這樣當應用伺服器讀數據的時候,就可以通過從資料庫或得數據。為了便於應用程序訪問讀寫分離後的資料庫,通常在應用伺服器端使用專門的數據訪問模塊,使資料庫讀寫分離時對應用透明。
使用反向代理和CDN加速網站響應
CDN和反向代理的基本原理都是緩存,區別在於CDN部署在網路提供商的機房,是用戶在請求網站服務時,可以從距離自己最近的網路提供商機房獲取數據;而反向代理則部署在網站的中心機房,當用戶請求到達中心機房後,首先訪問的伺服器是反向代理伺服器,如果反向代理伺服器中緩存著用戶請求的資源,就將其直接給用戶。
使用分布式文件系統和分布式資料庫系統
分布式資料庫是網站資料庫拆分的最後手段,只有在單表數據規模非常龐大的時候才使用,不到萬不得以時,網站更常用的資料庫拆分手段是業務分庫,將不同業務的資料庫部署在不同的物理伺服器上。
使用NOSQL和搜索引擎
對於海量數據的查詢,我們使用nosql資料庫加上搜索引擎可以達到更好的性能。並不是所有的數據都要放在關系型數據中。常用的NOSQL有mongodb和redis,搜索引擎有lucene。
業務拆分
隨著業務進一步擴展,應用程序變得非常臃腫,這時我們需要將應用程序進行業務拆分,如網路分為新聞、網頁、圖片等業務。每個業務應用負責相對獨立的業務運作。業務之間通過消息進行通信或者同享資料庫來實現.
分布式服務
這時我們發現各個業務應用都會使用到一些基本的業務服務,例如用戶服務、訂單服務、支付服務、安全服務,這些服務是支撐各業務應用的基本要素。我們將這些服務抽取出來利用分部式服務框架搭建分布式服務。淘寶的Dubbo是一個不錯的選擇.
『玖』 如何構建高可用的分布式系統
開源軟體已經成為許多大型網站的基本組成部分,隨著這些網站的逐步壯大,他們的網站架構和一些指導原則也出現在開發者們的面前,給予切實有用的指導和幫助。本文旨在介紹一些核心問題以及通過構建模塊來製作大型網站,實現最終目標。 這篇文章主要側重於Web系統,並且也適用於其他分布式系統。 Web分布式系統設計的原則 構建並運營一個可伸縮的Web站點或應用程序到底指的是什麼?在最初,僅是通過互聯網連接用戶和訪問遠程資源。 和大多數事情一樣,當構建一個Web服務時,需要提前抽出時間進行規劃。了解大型網站創建背後的注意事項以及權衡可能會給你帶來更加明智的決策,當你在創建小網站時。下面是設計大型Web系統時,需要注意的一些核心原則: 1.可用性 2.性能 3.可靠性 4.可擴展 5.易管理 6.成本 上面的這些原則給設計分布式Web架構提供了一定的基礎和理論指導。然而,它們也可能彼此相左,例如實現這個目標的代價是犧牲成本。一個簡單的例子:選擇地址容量,僅通過添加更多的伺服器(可伸縮性),這個可能以易管理(你不得不操作額外的伺服器)和成本作為代價(伺服器價格)。 無論你想設計哪種類型的Web應用程序,這些原則都是非常重要的,甚至這些原則之間也會互相羈絆,做好它們之間的權衡也非常重要。 基礎 當涉及到系統架構問題時,這幾件事情是必須要考慮清楚的:什麼樣的模塊比較合適?如何把它們組合在一起?如何進行恰當地權衡?在擴大投資之前,它通常需要的並不是一個精明的商業命題,然而,一些深謀遠慮的設計可以幫你在未來節省大量的時間和資源。 討論的重點幾乎是構建所有大型Web應用程序的核心:服務、冗餘、分區和故障處理能力。這里的每個因素都會涉及到選擇和妥協,特別是前面所討論的那些原則。解釋這些核心的最佳辦法就是舉例子。 圖片託管應用程序 有時,你會在線上傳圖片,而一些大型網站需要託管和傳送大量的圖片,這對於構建一個具有成本效益、高可用性並具有低延時(快速檢索)的架構是一項挑戰。 在一個圖片系統中,用戶可以上傳圖片到一個中央伺服器里,通過網路連接或API對這些圖片進行請求,就像Flickr或者Picasa。簡單點,我們就假設這個應用程序只包含兩個核心部分:上傳(寫)圖片和檢索圖片。圖片上傳時最好能夠做到高效,傳輸速度也是我們最關心的,當有人向圖片發出請求時(例如是一個Web頁面或其他應用程序)。這是非常相似的功能,提供Web服務或內容分發網路(一個CDN伺服器可以在許多地方存儲內容,所以無論是在地理上還是物理上都更加接近用戶,從而導致更快的性能)邊緣伺服器。 該系統需要考慮的其他重要方面: 1.圖片存儲的數量是沒有限制的,所以存儲應具備可伸縮,另外圖片計算也需要考慮 2.下載/請求需要做到低延遲 3.用戶上傳一張圖片,那麼圖片就應該始終在那裡(圖片數據的可靠性) 4.系統應該易於維護(易管理) 5.由於圖片託管不會有太高的利潤空間,所以系統需要具備成本效益 圖1是個簡化的功能圖 圖1 圖片託管系統的簡化結構圖 在這個例子中,系統必須具備快速、數據存儲必須做到可靠和高度可擴展。構建一個小型的應用程序就微不足道了,一台伺服器即可實現託管。如果這樣,這篇文章就毫無興趣和吸引力了。假設我們要做的應用程序會逐漸成長成Flickr那麼大。 服務 當我們考慮構建可伸縮的系統時,它應有助於解耦功能,系統的每個部分都可以作為自己的服務並且擁有清晰的介面定義。在實踐中,這種系統設計被稱作面向服務的體系結構(SOA)。對於此類系統,每個服務都有它自己的獨特功能,通過一個抽象介面可以與外面的任何內容進行互動,通常是面向公眾的另一個服務 API。 把系統分解成一組互補性的服務,在互相解耦這些操作塊。這種抽象有助於在服務、基本環境和消費者服務之間建立非常清晰的關系。這種分解可以有效地隔離問題,每個塊也可以互相伸縮。這種面向服務的系統設計與面向對象設計非常相似。 在我們的例子中,所有上傳和檢索請求都在同一台伺服器上處理。然而,因為系統需要具備可伸縮性,所以把這兩個功能打破並集成到自己的服務中是有意義的。 快進並假設服務正在大量使用;在這種情況下,很容易看到寫圖片的時間對讀圖片時間有多大影響(他們兩個功能在彼此競爭共享資源)。根據各自體系,這種影響會是巨大的。即使上傳和下載速度相同(這是不可能的,對於大多數的IP網路來說,下載速度:上傳速度至少是3:1),通常,文件可以從緩存中讀取,而寫入,最終是寫到磁碟中(也許在最終一致的情況下,可以被多寫幾次)。即使是從緩存或者磁碟(類似SSD)中讀取,數據寫入都會比讀慢(Pole Position,一個開源DB基準的開源工具和結果)。 這種設計的另一個潛在問題是像Apache或者Lighttpd這些Web伺服器通常都會有一個並發連接數上限(默認是500,但也可以更多),這可能會花費高流量,寫可能會迅速消掉所有。既然讀可以非同步或利用其他性能優化,比如gzip壓縮或分塊傳輸代碼,Web服務可以快速切換讀取和客戶端來服務於更多的請求,超過每秒的最大連接數(Apache的最大連接數設置為500,這種情況並不常見,每秒可以服務幾千個讀取請求)。另一方面,寫通常傾向於保持一個開放的鏈接進行持續上傳,所以,使用家庭網路上傳一個1 MB的文件花費的時間可能會超過1秒,所以,這樣的伺服器只能同時滿足500個寫請求。 圖2:讀取分離 規劃這種瓶頸的一個非常好的做法是把讀和寫進行分離,如圖2所示。這樣我們就可以對它們單獨進行擴展(一直以來讀都比寫多)但也有助於弄明白每個點的意思。這種分離更易於排除故障和解決規模方面問題,如慢讀。 這種方法的優點就是我們能夠彼此獨立解決問題——在同種情況下,無需寫入和檢索操作。這兩種服務仍然利用全球語料庫的圖像,但是他們可以自由地優化性能和服務方法(例如排隊請求或者緩存流行圖片——下面會介紹更多)。從維護和成本角度來看,每一個服務都可以根據需要獨立進行擴展,但如果把它們進行合並或交織在一起,那麼有可能無意中就會對另一個性能產生影響,如上面討論的情景。 當然,如果你有兩個不同的端點,上面的例子可能會運行的很好(事實上,這非常類似於幾個雲存儲供應商之間的實現和內容分發網路)。雖然有很多種方法可以解決這些瓶頸,但每個人都會有不同的權衡,所以採用適合你的方法才是最重要的。 例如,Flickr解決這個讀/寫問題是通過分發用戶跨越不同的碎片,每個碎片只能處理一組用戶,但是隨著用戶數的增加,更多的碎片也會相應的添加到群集里(請參閱Flickr的擴展介紹)。在第一個例子中,它更容易基於硬體的實際用量進行擴展(在整個系統中的讀/寫數量),而Flickr是基於其用戶群進行擴展(but forces the assumption of equal usage across users so there can be extra capacity)。而前面的那個例子,任何一個中斷或者問題都會降低整個系統功能(例如任何人都沒辦法執行寫操作),而Flickr的一個中斷只會影響到其所在碎片的用戶數。在第一個例子中,它更容易通過整個數據集進行操作——例如,更新寫服務,包括新的元數據或者通過所有的圖片元數據進行搜索——而 Flickr架構的每個碎片都需要被更新或搜索(或者需要創建一個搜索服務來收集元數據——事實上,他們就是這樣做的)。 當談到這些系統時,其實並沒有非常正確的答案,但有助於我們回到文章開始處的原則上看問題。確定系統需求(大量的讀或寫或者兩個都進行、級別並發、跨數據查詢、范圍、種類等等),選擇不同的基準、理解系統是如何出錯的並且對以後的故障發生情況做些扎實的計劃。 冗餘 為了可以正確處理錯誤,一個Web架構的服務和數據必須具備適當的冗餘。例如,如果只有一個副本文件存儲在這台單獨的伺服器上,那麼如果這台伺服器出現問題或丟失,那麼該文件也隨即一起丟失。丟失數據並不是什麼好事情,避免數據丟失的常用方法就是多創建幾個文件或副本或冗餘。 同樣也適用於伺服器。如果一個應用程序有個核心功能,應確保有多個副本或版本在同時運行,這樣可以避免單節點失敗。 在系統中創建冗餘,當系統發生危機時,如果需要,可以消除單點故障並提供備份或備用功能。例如,這里有兩個相同的服務示例在生產環境中運行,如果其中一個發生故障或者降低,那麼該系統容錯轉移至那個健康的副本上。容錯轉移可以自動發生也可以手動干預。 服務冗餘的另一重要組成部分是創建一個無共享架構。在這種體系結構中,每個節點都能相互獨立運行,並且沒有所謂的中央“大腦”管理狀態或協調活動其他節點。這對系統的可擴展幫助很大,因為新節點在沒有特殊要求或知識的前提下被添加。然而,最重要的是,這些系統是沒有單點故障的,所以失敗的彈性就更大。 例如在我們的圖片伺服器應用程序中,所有的圖片在另一個硬體上都有冗餘副本(理想情況下是在不同的地理位置,避免在數據中心發生一些火災、地震等自然事故),服務去訪問圖片將被冗餘,所有潛在的服務請求。(參見圖3:採用負載均衡是實現這點的最好方法,在下面還會介紹更多方法) 圖3 圖片託管應用程序冗餘 分區 數據集有可能非常大,無法安裝在一台伺服器上。也有可能這樣,某操作需要太多的計算資源、性能降低並且有必要增加容量。在這兩種情況下,你有兩種選擇:縱向擴展或橫向擴展。 縱向擴展意味著在單個伺服器上添加更多的資源。所以,對於一個非常大的數據集來說,這可能意味著添加更多(或更大)的硬體設備,來使一台伺服器能容下整個數據集。在計算操作下,這可能意味著移動計算到一個更大的伺服器上,擁有更快的CPU或更大的內存。在各種情況下,縱向擴展可以通過提升單個資源的處理能力來完成。 橫向擴展在另一方面是添加更多的節點,在大數據集下,這可能會使用第二伺服器來存儲部分數據集,對於計算資源來說,這意味著分割操作或跨節點載入。為了充分利用橫向擴展,它應作為一種內在的系統架構設計原則,否則修改或拆分操作將會非常麻煩。 當談到橫向擴展時,最常見的做法是把服務進行分區或碎片。分區可以被派發,這樣每個邏輯組的功能就是獨立的。可以通過地理界限或其他標准,如非付費與付費用戶來完成分區。這些方案的優點是他們會隨著容量的增加提供一個服務或數據存儲。 在我們的圖片伺服器案例中,用來存儲圖片的單個文件伺服器可能被多個文件伺服器取代,每個裡面都會包含一套自己獨特的圖像。(見圖4)這種架構將允許系統來填充每一個文件/圖片伺服器,當磁碟填滿時會添加額外的伺服器。這樣的設計需要一個命名方案,用來捆綁圖片文件名到其相應的伺服器上。圖像名字可以形成一個一致的哈希方案並映射到整個伺服器上;或者給每張圖片分配一個增量ID,當客戶端對圖片發出請求時,圖片檢索服務只需要檢索映射到每個伺服器上(例如索引)的ID。 圖4 圖片託管應用程序冗餘和分區 當然,跨越多個伺服器對數據或功能進行分區還是有許多挑戰的。其中的關鍵問題是數據本地化。在分布式系統中,數據操作或計算點越接近,系統性能就會越好。因此,它也可能是個潛在問題,當數據分散在多個伺服器上時。有時數據不是在本地,那麼就要迫使伺服器通過網路來獲取所需的信息,這個獲取的過程就會設計到成本。 另一潛在問題是不一致。當這里有多個服務對一個共享資源執行讀寫操作時,潛在可能會有另一個伺服器或數據存儲參與進來,作為競選條件——一些數據需要更新,但是讀的優先順序高於更新——在這種情況下,數據就是不一致的。例如在圖片託管方案中,有可能出現的不一致是:如果一個客戶端發送更新“狗”圖片請求,進行重新命名,把“Dog”改成“Gizmo”,但同時,另一個客戶端正在讀這張圖片。在這種情況下,標題就是不清楚的。“Dog”或“Gizmo” 應該被第二個客戶端接收。 當然,在進行數據分區時會產生一些障礙,但是分區允許把每個問題拆分到管理群里——通過數據、負載、使用模式等。這樣對可擴展和易管理都是有幫助的,但也不是沒有風險的。這里有很多方式來降低風險和故障處理;然而,為了簡便起見,並未在本文中詳細說明,如果你有興趣,可以訪問我的博客。 總結 以上介紹的都是設計分布式系統需要考慮的核心要素。可用性、性能、可靠性、可擴展、易管理、成本這幾個原則非常重要,但在實際應用中可能會以犧牲某個原則來實現另外一個原則,在這個過程中就要做好權衡工作,做到因時制宜。 在下面的構建分布式系統實戰中,我們將會深入介紹如何設計可擴展的數據訪問,包括負載均衡、代理、全局緩存、分布式緩存等。 英文地址:Dr.Dobb's 文:CSDN
『拾』 php大型應用如何採用分布式架構
大型分布式架構都是靠多種語言和工具共同分工合作實現的。
不是一兩種工具或者語言能實現的,如果專指php那是沒有意義的,因為php本身只是一個單進程的東東,更別說分布式。
大規模的web應用以及分布式架構主要在於伺服器的整體架構:
1、web服務集群;
2、資料庫集群;
3、分布式緩存;
php充其量只是實現其中一個節點的某個具體的web應用。
SD框架支持長連接協議TCP,WebSocket,短連接協議HTTP,以及UDP。
通過配置開放不同的埠開發者可以輕松管理不同的協議,並且可以共用一套業務代碼,當然你可以通過智能路由進行代碼的隔離。
長連接可以配置不同的數據傳輸協議,比如二進制協議文本協議等等,通過框架提供的封裝器解包器介面可以自定義各種各種的協議封裝,並且各種協議之間可以自動轉換,比如你通過廣播發送一個信息,該信息流向不同客戶端,客戶端間採用不同協議,那麼框架會根據不同的埠自動轉換不同的協議封裝。
也可以通過Http給所有長連接客戶端發送推送消息,類似這種混合協議協作的業務在SD框架上會異常簡單。
(10)如何設計大型分布式網站擴展閱讀:
普通的Web開發,常用的模式就是用戶登錄之後,登錄狀態信息保存在Session中,用戶一些常用的熱數據保存在文件緩存中,用戶上傳的附件信息保存在Web伺服器的某個目錄上。這種方式對於一般的Web應用,使用很方便,完全能夠勝任。但是對於高並發的企業級網站,就應付不了了。需要採用Web集群實現負載均衡。
使用Web集群方式部署之後,首要調整的就是用戶狀態信息與附件信息。用戶狀態不能再保存到Session中,緩存也不能用本地Web伺服器的文件緩存,以及附件,也不能保存在Web伺服器上了。因為要保證集群裡面的各個Web伺服器,狀態完全一致。
因此,需要將用戶狀態、緩存等保存到專用的緩存伺服器,比如Memcache。附件需要保存到雲存儲中,比如七牛雲存儲、阿里雲存儲、騰訊雲存儲等。
SD框架內大多數的對象都使用了對象池技術,對象池技術有利於系統內存的穩定,減少GC的次數,提高系統的運行效率,事實證明對象池對系統穩定做出了極大的貢獻。
開發者也可以使用這一套對象池技術,增加對對象的復用,減少GC和NEW的頻率,對系統毛刺現象和內存泄露方面都有很大的穩定性提升。