典型的易發故障點和建議采用的解決方案
這一節詳細介紹了 MSIB 2.0 企業部署中典型的易出故障的點(如前表所列)并為避免這些故障提出了建議。
網絡
網絡是將所有的服務器、內聯網、Internet 和用戶連接到一起的結構。 沒有網絡連接的話,整個系統都會癱瘓。 網絡故障可能會由網絡硬件故障、套接字故障或遠程過程調用(RPC)連接造成的。
網絡硬件故障
網絡故障的主要原因有:
交換機/路由器故障
網絡接口卡 (NIC) 故障
電纜媒質故障,如網線故障等
建議采用的解決方案
建議采用的高可用性解決方案如下:
利用 TCP/IP 協議。
啟用路由和管理協議,如 Routing Information Protocol 2 (RIP2)、Open Shortest Path First (OSPF)和 Internet Control Message Protocol (ICMP)等。 啟用這些協議可能需要配置防火墻策略。
部署冗余的交換機、路由器、電纜和分組的網絡接口卡。
套接字故障
許多可感知網絡的應用程序都是利用傳輸控制協議(TCP)或用戶數據報協議(UDP)的套接字與運行在多個服務器之間的應用程序相互通信的。 要實現 Windows 2000 高可用性所需的通信協議為 TCP/IP 。 連接是利用 TCP 或 UDP 模式的套接字建立起來的。 TCP 套接字是一種狀態連接,用于需要數據的決定性定購和保證交付的情形(例如 SQL 查詢和 HTTP 查詢等)。 UDP 套接字是一種無狀態連接,用于定購和交付保證不是非常重要的情況下(如音頻流等)。
TCP 套接字是由 MSIB 2.0 所依賴的下列軟件使用的:
SQL Server 2000
Internet Information Server (IIS)
SMTP Mail Server
Agent 和 Consolidator /agent Manager 之間的 Microsoft Operations Manager (MOM)
以下的 MSIB 2.0 特性利用了 TCP 套接字:
Commerce Server 2002 Direct Mail (用于通過 SMTP Server 發送郵件)
User Profile System (用于連接到 LDAP 服務器:Active Directory?、Site Server 和第三方。還用于連接到 SQL Server)
UDP 套接字由 Commerce Server 2002 所依賴的以下軟件使用:
Active Directory (近的域控制器發現算法)
TCP/IP 套接字可能會因如下原因發生故障:
網絡故障
服務器故障
建議采用的解決方案
建議采用兩種 Windows 2000 高可用性解決方案:
Microsoft 群集服務 (MSCS)。 這種解決方案適用于 SQL Server (工作于主機和發布者模式下)或 IIS (工作于主機和發布者模式下)。
用于 IIS Server 的網絡負載均衡(NLB)服務。 這種解決方案適用于 IIS Server (工作于橫向擴展模式)、SQL Server (工作于橫向擴展模式)、外部 SMTP Mail 服務器和 LDAP 服務器。
遠程過程調用(RPC)連接故障
RPC 連接是由訪問如下內容的應用程序使用的:
遠程資源(映射的驅動器、共享文件夾等)
遠程 COM+ 組件(通過 DCOM )
以下的 MSIB 依賴項可能會用到 RPC 連接:
遠程 COM+ 應用程序
為 SQL 2000 Server 使用 Distributed Transaction Coordinator (DTC)的管道組件
用于目的地復制的 Application Center 源
RPC 連接可能會因為以下因素發生故障:
網絡故障
服務器故障
建議采用的解決方案
建議采用兩種 Windows 2000 高可用性解決方案:
Microsoft Cluster Service (MSCS)
Component Load Balancing (CLB) 服務
在故障切換期間,一個訪問群集遠程文件系統服務器的應用必需要執行如下的操作:
跟蹤文件或正被訪問的目錄路徑內的搜索位置
重新打開正在訪問的文件或目錄
從故障切換發生的地點開始繼續處理,從頭開始重新啟動處理過程,或返回穩態,令應用程序來決定解決方法
在故障切換期間,正在訪問遠程 COM+ 服務器(或 MSCS 或 CLB 群集)的應用程序必需要執行如下操作:
跟蹤處理點
重新初始化遠程 COM+ 對象
從故障切換發生之處開始繼續處理,從頭開始重新啟動處理過程,或返回穩態,令應用程序來決定解決方法
服務器硬件
應用程序、中間層和數據庫層都運行在物理服務器上。 盡管 Windows 平臺可以使用容錯系統,不過這些容錯系統往往比較昂貴,而且難以適應大范圍的商品市場。
因硬件故障導致的服務器故障有如下幾種方式:
隨機存取存儲器(損壞、耗盡)
CPU (過熱引起的故障)
內部電源(保險絲故障、冗余電源完全失效)
母板(電子故障)
在每種情況下,任何一個底層服務器組件的故障都會導致整個服務器的故障。
建議采用的解決方案
為實現服務器硬件的高可用性,建議采用如下的 Windows 2000 解決方案:
Microsoft 群集服務 (MSCS)。 這種解決方案適用于工作在主機或發布者模式下的服務器。 一般情況下,MSCS 需要對服務器進行讀/寫訪問,其中,客戶應用程序從服務器創建、更新和讀出數據。 一般情況下這種解決方案適用于 SQL Server 、Exchange Server 和 COM+ Server 。
網絡負載均衡(NLB)服務。 這種解決方案適用橫向擴展模式。 在這種模式下,多個數據庫服務器在一個單一的虛擬 IP 地址之下進行了負載均衡。 一般情況下這些數據庫服務器是作為主數據庫服務器的用戶工作的,這個數據庫服務器則作為一個數據發布者工作。 在一個數據庫服務器出現故障的時候, NLB 將該服務器從群集中刪除并將連接指向其他正常的服務器。
組件負載均衡(CLB) 服務。 這種解決方案適用于 COM+ 應用程序。 遠程 COM+ 組件是安裝在 CLB 服務上的。 在某一臺 COM+ 服務器出現故障的時候, CLB 能夠檢測到該故障并將請求指向功能正常的服務器上。
多臺服務器。 專門為 Active Directory Domain Controller 部署多臺服務器。 Active Directory 是通過復制其目錄存儲和在多個域控制器之間分布請求實現高可用性的。
硬件冗余。 使用內置硬件冗余的計算機系統,例如冗余電源等。
磁盤
磁盤子系統是由 MSIB 2.0 下列的依賴項使用的:
IIS Server (包括 IIS 元數據庫、Web 站點內容:ASP ,HTML ,GIF ,PCF 等等。)
Commerce Server 2002 Direct Mailer 用的 Mail Drop 文件夾
搜索內容的內容索引
文件/磁盤子系統可能會因為如下原因發生故障:
硬盤驅動器中物理磁頭失效
電子故障
硬盤驅動器中物理扇區損壞
建議采用的解決方案
在磁盤子系統這一個級別上,建議您使用以下技術中的一個或多個以確保實現高可用性:
RAID 5
RAID 1
RAID 1 + 0
多個 SAN 光纖信道通道(交換機、總線和控制器等)
不過,一旦基礎設施級別上的容錯功能未能保護子系統,這種故障會以文件丟失、目錄丟失或驅動器句柄的形式反映在操作系統(OS)級別上,引起對文件/磁盤子系統資源的后續訪問失敗。 如需了解關于 RAID 的更多信息,請在 Windows 2000 Help 中搜索 RAID 。
應用程序
Commerce Server 和 ISA 等應用程序都是由 MSIB 2.0 用以執行該解決方案所需的綜合軟件功能的。 由于應用程序是運行在平臺操作系統(OS)頂部的,因此存在很多引起故障的原因,包括:
磁盤子系統失效
網絡故障
二進制失效
服務器故障
建議采用的解決方案
建議采用兩種 Windows 2000 高可用性解決方案:
Microsoft 群集服務。 這種解決方案適用于那些本身是服務而且支持這一功能的應用程序組件。
網絡負載均衡(NLB)。 這種解決方案適用于工作于橫向擴展模式下的 Search ,ISA ,MCMS 和 Commerce Server 2002 。 在這種模式下,多個應用服務器在一個單一的虛擬 IP 地址之下進行了負載均衡。 前端應用服務器上運行的組件為那些需要使用持續狀態的操作在后端數據庫服務器上維護著狀態。 在一個應用服務器出現故障的時候, NLB 將該服務器從群集中刪除并將連接指向其他正常的服務器。
解決方案部署中應當包括對構成應用程序的其他二進制代碼的備份。