一、目的
當發(fā)生冷源故障事件時,能迅速、正確、有條不紊地進行處理,保證計算機設備的安全。
二、適用范圍
適用于本中心供冷源設備故障處理。
三、職責
1) 當值人員應嚴守崗位,加強巡查,發(fā)現(xiàn)問題馬上通知客戶、承建商和項目部主管經理,并無條件服從上級指示。
2) 經理(主管)或事發(fā)時現(xiàn)場最高職級人負責組織在場員工進行突發(fā)事件的處理,并負責搶險現(xiàn)場指揮及督導。
四、工作程序
從大學城中心冷站提供二路獨立冷源為整個中心大樓供冷,分別是2#冷站(主管DN500)和3#冷站(主管DN700),其中2#冷源供應范圍:2#智能機組(此系統(tǒng)供應高低壓變壓器和UPS房的空調,可通過分段閥轉至3#冷源)、4#-9#板換(此系統(tǒng)供應二樓計算機房的第3-6行的列間空調冷水,其中4#-6#板換可通過分段閥轉至3#冷源)、1#-3#板換(此系統(tǒng)設有容災蓄冷罐,供應二樓計算機房的第7-11行的列間空調冷水)。3#冷源供應范圍:1#、2#智能機組(此系統(tǒng)供應高低壓變壓器和UPS房的空調,可通過分段閥供2#智能機組)、1#-3#板換系統(tǒng)(此系統(tǒng)供應二樓計算機房的第7--11行的列間空調冷水)和4#-6#、10#-12#板換系統(tǒng)(此系統(tǒng)供應二樓計算機房的第3-6行的列間空調冷水,可通過分段閥供4#-6#板換)。
為確保計算機的正常運行,特制訂以下的應急處理方案。
4.1正在使用中的兩路冷凍水源中某一路停供的應急處理:
1)當發(fā)現(xiàn)正在使用中的兩路冷凍水源中某一路停供時,立即向上級匯報。
2)同時呼叫同事并按《超算中心各系統(tǒng)應急流程圖》之規(guī)定立即打開兩路冷源水管之間的旁通閥,并關閉已停供的冷源水閥,以上操作必須在10分鐘內完成。
3)詢問中心冷站停供原因及確認恢復時間。
4)加緊巡查密切留意冷源運行狀況。
4.2 兩路冷凍水源同時停供的應急處理:
1)當發(fā)現(xiàn)兩路冷凍水源同時停供時,立即向上級匯報,此時系統(tǒng)會轉由蓄冷罐冷凍水向二樓計算機房中第10列和IO區(qū)機柜行間精密空調供冷,正常情況下能承擔26分鐘供冷需求,值班人員需確認各V4-V9閥門狀態(tài)和1#-4#冷凍泵及1#-3#扳換二次側電動閥狀態(tài)(必要時手動打開)。
2)第3-9、11列機柜應逐步退出運行,之后停止冷凍系統(tǒng)二設備運行。
3)當緊急蓄冷罐供冷時值班人員需密切留意蓄冷罐冷凍水溫度(回水溫度超過17℃時停止供冷水),并通知相關部門做好停第10列和IO區(qū)機柜計算機的準備,根據溫度上升情況逐步關閉電子信息設備,如機房溫度超過28℃則全部關閉計算機。
4)詢問中心冷站停供原因,確認恢復時間。
4.3行間精密空調突然高溫報警的處理
4.3.1當冷凍水源進水溫度高于15℃,致平均送風溫度高于設定值。
解決方法:BA監(jiān)控值班立即呼叫同事到負一層檢查,查看系統(tǒng)一二的運行中水泵和板換設備是否都正常,如:水泵有無停運、板換一二次側閥門是否都開啟。
BA監(jiān)控值班需查看冷凍水系統(tǒng)監(jiān)控畫面:
1) 投入運行的水泵和板換是否都正常;
2) 一次側供回水溫度是否6-7℃/11-12℃;
3) 二次側供回水溫度是否10-11℃/13-15℃;
4) 二次側供回水壓力是否380Kpa/300Kpa左右;其中7L1/7L2、8L1/8L2水管供回水壓力是否400-430Kpa/300Kpa左右;
5) 蓄冷罐系統(tǒng)中的V4、V9閥是否開啟且V5-V8閥都關閉;
如BA監(jiān)控界面無法操作則快速重啟軟件,如二樓監(jiān)控不能遠程控制負一樓水泵則必須呼叫負一樓同事現(xiàn)場手動開啟水泵和板換。
如不能10分鐘內恢復行間精密空調的正常運行則必須立即通知超算值班人員停止受影響計算機的運行。
4.3.2當冷凍水源進水溫度在10-11℃,但回水溫度達到16℃以上。
其原因是:水流量不足、水管內有空氣或行間精密空調的供水閥門開啟度過小。
解決方法:立即手動加開1臺冷凍泵,并將平均送風溫度設低1-2℃,對水管進行排氣。
4.3.3當冷凍水源回水管電動閥失靈,導致平均送風溫度高于設定值21℃。
其原因是:電動閥故障戓電動閥無控制信號。
解決方法:立即手動開啟電動閥。如不能10分鐘內恢復行間精密空調的正常運行則必須立即通知超算值班人員停止該臺計算機的運行。
4.3.4當翅片臟堵塞使風道不暢無法進行熱交換使平均送風溫度高于設定值。
其原因是:翅片積塵。
解決方法:安排適當時間停機淸洗翅片并定期執(zhí)行。如不能10分鐘內恢復行間精密空調的正常運行則必須立即通知超算值班人員停止該臺計算機的運行。
4.3.4當部分風機損壞使風量減少從而熱交換效果差使平均送風溫度高于設定值21℃。
其原因是:風機或線路故障。
解決方法:安排適當時間停機維修并定期檢查。如不能10分鐘內恢復行間精密空調的正常運行則必須立即通知超算值班人員停止該臺計算機的運行。
五、 記錄
5.1《事件報告》
5.2《設備故障記錄》