近期在ChinaUnix論壇有一場討論,標題是——云計算時代:運維人員會踩到哪些坑?
整個討論過程非常活躍,大概有50個答復,運維派這就給大家整理了一些討論的優(yōu)質(zhì)內(nèi)容分享給大家。
背景:
在云計算領域,運維人員就是這樣的存在,小到一條短信,大到一次網(wǎng)上交易,只要和IT相關的業(yè)務就需要這些運維人員,沒有他們在背后的支持,生活是會出大亂子的。
可是到了云計算時代,不少人說IT人要下崗了,是否真會如此呢?云計算的出現(xiàn)是否會使得整體行業(yè)對運維的需求萎縮了呢?
面對傳統(tǒng)的幾十臺服務器時,運維人員還能手動處理一些問題,但是當機器發(fā)展到1000臺、甚至是10000多臺時,自動化運維必須得派上用場了。企業(yè)根據(jù)業(yè)務來分配和釋放資源,運維人員不僅需要一個強大的控制系統(tǒng)來控制對網(wǎng)絡流量、CPU利用率、進程、內(nèi)存等等節(jié)點,還需要一個資源管理系統(tǒng)來管理這些資源的生命狀態(tài),還有權限管理,就像AWS的IAM一樣。
話題討論:
1.云計算時代,運維人員是否會面臨著失業(yè)的風險?
2.傳統(tǒng)的數(shù)據(jù)中心里,設備是真實存在的,管理起來相對簡單,而虛擬化技術將這些資源都“池化了”,一旦故障發(fā)生,需要檢查排除,云時代下您覺得在運維管理方面存在哪些痛點困擾呢?
3.對云計算而言,一大堆機器和設備放在一起,安全成為了一大挑戰(zhàn)。有哪些監(jiān)控工具可以實現(xiàn)對資源的管理,對網(wǎng)絡流量、CPU利用率、進程、內(nèi)存等狀態(tài)監(jiān)控呢?
4.在使用云服務,比如阿里云、騰訊云等,磁盤用到一定時候就會不穩(wěn)定,很莫名其妙,磁盤I/O會變慢,到底是什么原因?您是否遇到過類似的經(jīng)歷?當時是如何解決的?
5.考慮到安全性問題,大多數(shù)企業(yè)都會選擇混合云,選擇IBM的云,穩(wěn)定但貴,您比較看好哪些云服務提供商?為什么?
下面就來看看運維的小伙伴們都是怎么回答的?
網(wǎng)友stukirito的回答:
1.云計算時代,運維人員是否會面臨著失業(yè)的風險?
以上說的是整體的國內(nèi)運維趨勢 如今云計算時代 對運維保障的要求自然更上一個臺階 失業(yè)不失業(yè)完全取決于自己.
2.傳統(tǒng)的數(shù)據(jù)中心里,設備是真實存在的,管理起來相對簡單,而虛擬化技術將這些資源都“池化了”,一旦故障發(fā)生,需要檢查排除,云時代下您覺得在運維管理方面存在哪些痛點困擾呢?
既然使用到了虛擬化技術 那這個是具體問題具體分析。
3.對云計算而言,一大堆機器和設備放在一起,安全成為了一大挑戰(zhàn)。有哪些監(jiān)控工具可以實現(xiàn)對資源的管理,對網(wǎng)絡流量、CPU利用率、進程、內(nèi)存等狀態(tài)監(jiān)控呢?
可監(jiān)控的軟件多的去了 不過我相信目前大多數(shù)企業(yè)開始使用開源軟件的多 譬如 catic、nagios、zabbix等都可以 關鍵在于這些監(jiān)控軟件如何適應你現(xiàn)有環(huán)境 那取決于運維對企業(yè)業(yè)務的熟悉度 對服務器環(huán)境的熟悉度等 才能因地制宜的去部署構建相關的監(jiān)控環(huán)境 并根據(jù)相關反饋給的數(shù)據(jù)進行分析判斷
4.在使用云服務,比如阿里云、騰訊云等,磁盤用到一定時候就會不穩(wěn)定,很莫名其妙,磁盤I/O會變慢,到底是什么原因?您是否遇到過類似的經(jīng)歷?當時是如何解決的?
如果是托管類的直接找云服務商去看 如果是私有云就要慢慢找原因了
5.考慮到安全性問題,大多數(shù)企業(yè)都會選擇混合云,選擇IBM的云,穩(wěn)定但貴,您比較看好哪些云服務提供商?為什么?
這個比較難說 目前大多數(shù)企業(yè)選擇混合云 就是擔心云服務提供商提供的服務會有中斷 所以看企業(yè)自身需求做選擇吧
網(wǎng)友stay_sun的回答:
1.云計算時代,運維人員是否會面臨著失業(yè)的風險?
在it圈里技術的革新總是很快的,當你跟不上技術的發(fā)展的時候。你永遠面臨著淘汰。原來的vb,daifei,等等。傳統(tǒng)的運維注定被淘汰。自動化運維會持續(xù)發(fā)展
2.傳統(tǒng)的數(shù)據(jù)中心里,設備是真實存在的,管理起來相對簡單,而虛擬化技術將這些資源都“池化了”,一旦故障發(fā)生,需要檢查排除,云時代下您覺得在運維管理方面存在哪些痛點困擾呢?
新的數(shù)據(jù)中心雖然池化了,但是他對應的還是物理主機。檢查的難度更大。但是對于單點的故障解決就簡單多了。我覺得,云的運維最有難度的是平臺的故障。很不好解決
3.對云計算而言,一大堆機器和設備放在一起,安全成為了一大挑戰(zhàn)。有哪些監(jiān)控工具可以實現(xiàn)對資源的管理,對網(wǎng)絡流量、CPU利用率、進程、內(nèi)存等狀態(tài)監(jiān)控呢?
最好的方法是調(diào)用系統(tǒng)的命令來收集你需要的數(shù)據(jù)。完成相應的問題。達到資源的最大化。
4.在使用云服務,比如阿里云、騰訊云等,磁盤用到一定時候就會不穩(wěn)定,很莫名其妙,磁盤I/O會變慢,到底是什么原因?您是否遇到過類似的經(jīng)歷?當時是如何解決的?
運用這種平臺云服務器,及本可以保證使用。偶爾這種問題,也是沒有辦法的。畢竟他是寄宿在實體機上面,多個主機總會有資源的沖突。找供應商。解決問題吧。沒有辦法的
5.考慮到安全性問題,大多數(shù)企業(yè)都會選擇混合云,選擇IBM的云,穩(wěn)定但貴,您比較看好哪些云服務提供商?為什么?
我還是考慮自建云平臺。作為互聯(lián)網(wǎng)公司。這個東西使用太貴了
網(wǎng)友pure_lotus的回答:
1.云計算時代,運維人員是否會面臨著失業(yè)的風險?
不會,云平臺也需要有人運維,云計算時代產(chǎn)生的云平臺運維新崗位比普遍運維更重要,工資還高了。但對于一般性的非IT企業(yè)的某些基礎架構類IT運維人員,是存在失業(yè)的風險,需要加緊轉(zhuǎn)型。
2.傳統(tǒng)的數(shù)據(jù)中心里,設備是真實存在的,管理起來相對簡單,而虛擬化技術將這些資源都“池化了”,一旦故障發(fā)生,需要檢查排除,云時代下您覺得在運維管理方面存在哪些痛點困擾呢?
資源都虛擬池后后,故障定位和排除明顯是痛點,很容易牽一發(fā)而動全身;另外自動化運維管理本身的可靠性要求也更高;還有運維是如何滿足客戶的安全審計要求也是難題。
3.對云計算而言,一大堆機器和設備放在一起,安全成為了一大挑戰(zhàn)。有哪些監(jiān)控工具可以實現(xiàn)對資源的管理,對網(wǎng)絡流量、CPU利用率、進程、內(nèi)存等狀態(tài)監(jiān)控呢?
多吧,一般在開源基礎上做訂制開發(fā),而且要分層級,平臺層和應用層要開分開。
4.在使用云服務,比如阿里云、騰訊云等,磁盤用到一定時候就會不穩(wěn)定,很莫名其妙,磁盤I/O會變慢,到底是什么原因?您是否遇到過類似的經(jīng)歷?當時是如何解決的?
原因不明,猜測可能當時云服務廠商由于資源達到臨界點,在調(diào)整后臺部署或者做整體性的升級維護,造成臨時性的IO瓶頸。
解決辦法就是打電話或者等,有錢也可以選擇遠程冗員的硬盤空間備份,臨時切換到備份空間來操作。
5.考慮到安全性問題,大多數(shù)企業(yè)都會選擇混合云,選擇IBM的云,穩(wěn)定但貴,您比較看好哪些云服務提供商?為什么?
國內(nèi)嘛,估計以后微軟云和阿里云前景更好一些。主要是平衡成本和服務質(zhì)量,微軟自有軟硬件產(chǎn)品比較多,使用顧客擁有成本比較低;阿里的中小客戶基數(shù)大。
網(wǎng)友xuexiaogang的回答:
1.云計算時代,運維人員是否會面臨著失業(yè)的風險?
如果有自動化運維的,那么運維人員的要求更加高,而且壓力也越來越大,技能還要提升。如果沒有自動化運維,那么運維人員不僅不會失業(yè),而且人員還要不斷增加。
2.傳統(tǒng)的數(shù)據(jù)中心里,設備是真實存在的,管理起來相對簡單,而虛擬化技術將這些資源都“池化了”,一旦故障發(fā)生,需要檢查排除,云時代下您覺得在運維管理方面存在哪些痛點困擾呢?
全面監(jiān)控難度大,而且問題排查不容易。很多是虛擬化來完成的,內(nèi)部出現(xiàn)問題不好查也不好定位。
4.在使用云服務,比如阿里云、騰訊云等,磁盤用到一定時候就會不穩(wěn)定,很莫名其妙,磁盤I/O會變慢,到底是什么原因?您是否遇到過類似的經(jīng)歷?當時是如何解決的?
扇區(qū),塊等都會產(chǎn)生碎片或者邏輯故障等。需要的是經(jīng)常的維護和檢查??臻g回收和壞塊的處理尤為重要。
5.考慮到安全性問題,大多數(shù)企業(yè)都會選擇混合云,選擇IBM的云,穩(wěn)定但貴,您比較看好哪些云服務提供商?為什么?
百度云、360云、新浪云還有七牛等都是不錯的云存儲供應商。在很多技術交流上都和他們接觸過并且使用過。感覺還可以。
網(wǎng)友“淡定與灑脫”的回答:
1.云計算時代,運維人員是否會面臨著失業(yè)的風險?
還奉行老思路吃老本的大齡運維,其實已經(jīng)相當危險了,存在感將不斷下降,手工作坊式的低技術含量運維將越來越out。建議年輕入行的運維,一定要多學點開發(fā)技術,光會用幾個開源工具,養(yǎng)不起老婆孩子的。
2.傳統(tǒng)的數(shù)據(jù)中心里,設備是真實存在的,管理起來相對簡單,而虛擬化技術將這些資源都“池化了”,一旦故障發(fā)生,需要檢查排除,云時代下您覺得在運維管理方面存在哪些痛點困擾呢?
如果是公有云,那完全沒脾氣,只有選一個服務好的廠家了。如果是私有云,自己可以把原理性的東西研究清楚,提高troubleshooting能力。
3.對云計算而言,一大堆機器和設備放在一起,安全成為了一大挑戰(zhàn)。有哪些監(jiān)控工具可以實現(xiàn)對資源的管理,對網(wǎng)絡流量、CPU利用率、進程、內(nèi)存等狀態(tài)監(jiān)控呢?
saltStack、puppet、nagios、cacti、zabbix。?!,F(xiàn)在有一堆開源監(jiān)控和配置管理工具了,但問題是,如果只是會用這些工具,運維的價值何在?作為一個有理想的運維,應該搞點自己的小工具,成為這些工具的補充。
4.在使用云服務,比如阿里云、騰訊云等,磁盤用到一定時候就會不穩(wěn)定,很莫名其妙,磁盤I/O會變慢,到底是什么原因?您是否遇到過類似的經(jīng)歷?當時是如何解決的?
有冗余,不用怕,往往重啟后就恢復了。具體原因,還得問廠家。
5.考慮到安全性問題,大多數(shù)企業(yè)都會選擇混合云,選擇IBM的云,穩(wěn)定但貴,您比較看好哪些云服務提供商?為什么?
看企業(yè)老板是什么思路,有的不差錢,有的很差錢。貴的一般都好一些。
網(wǎng)友forgaoqiang的回答:
1.云計算時代,運維人員是否會面臨著失業(yè)的風險?
這個是肯定滴,現(xiàn)在的趨勢就和農(nóng)民種地類似,整體的崗位數(shù)量在下降,每個人管理的“田地”(服務器等IT資源)在增加。小型企業(yè)的運維人員需求(哪怕是兼職的網(wǎng)管)也在減少,小公司會把大部分的IT運維遷移到一些公有云上,管理簡單,成本也可以接受。中型企業(yè)可能也會用公有云和部分自己的服務器,至于大型公司,基本上都在維護自己的私有云,幾乎不會使用其它公司的服務。
所以整體來說,工作崗位數(shù)量在下降,但是對于運維人員的技能要求卻在上漲,運維開始成為高大上的職業(yè),只有真正具有高技能的運維人員不會面臨失業(yè),而是面臨漲工資。
2.傳統(tǒng)的數(shù)據(jù)中心里,設備是真實存在的,管理起來相對簡單,而虛擬化技術將這些資源都“池化了”,一旦故障發(fā)生,需要檢查排除,云時代下您覺得在運維管理方面存在哪些痛點困擾呢?
個人感覺云時代的時候更像是一個統(tǒng)計學的結論,只要集群整體運行正常就算是正常了,對于“池”中的某條“魚”(硬件設備)死了,可以短暫的不用去理會,定期替換維修即可。云時代下大家都是看著各種“儀表盤”來進行管理,很少關心底層的硬件,經(jīng)過層層抽象導致的結果就是排查難度上升,需要一層一層的去檢查,最終故障很有可能發(fā)生在最下一層的物理層次上。
3.對云計算而言,一大堆機器和設備放在一起,安全成為了一大挑戰(zhàn)。有哪些監(jiān)控工具可以實現(xiàn)對資源的管理,對網(wǎng)絡流量、CPU利用率、進程、內(nèi)存等狀態(tài)監(jiān)控呢?
工具非常多,很多商業(yè)化的工具、開源的管理工具等等,比較經(jīng)典的仍然是 Zabix、Cacti 等開源監(jiān)控程序,同事Puppet等管理工具也具有監(jiān)控功能,這些工具都是開源的,能夠根據(jù)自己的需要進行定制,很多支持插件模式,可以使用很多其它人已經(jīng)開發(fā)好的插件完成一些個性化的需求,完整整個運維的監(jiān)控工作。
4.在使用云服務,比如阿里云、騰訊云等,磁盤用到一定時候就會不穩(wěn)定,很莫名其妙,磁盤I/O會變慢,到底是什么原因?您是否遇到過類似的經(jīng)歷?當時是如何解決的?
是的,這個情況的確有遇到,很多時候是因為自己的業(yè)務系統(tǒng)出問題了,整體來說感覺阿里云還是比較穩(wěn)定和公正的,磁盤和CPU資源限制的比較準確,作為 IaaS的基礎設施,它們除了對硬件性能進行限制之外,剩下的都是客戶的OS操作系統(tǒng)在處理自己的業(yè)務。對于I/O變慢的情況,好多都是自己的程序過度使用磁盤I/O造成的。
5.考慮到安全性問題,大多數(shù)企業(yè)都會選擇混合云,選擇IBM的云,穩(wěn)定但貴,您比較看好哪些云服務提供商?為什么?
現(xiàn)在國內(nèi)有多種云服務提供商,有些針對性的提供對 消息語音隊列,有些是針對存儲,有些則能夠提供 平臺托管,有些就是提供IaaS級別的,目前公司主要采用的服務是阿里云的,也考慮過騰訊云,看上去目前阿里是技術上做的最好的,SAE、BAE等平臺不太適合我們的業(yè)務。對于消息隊列還是比較看好 語音云 這家提供商。至于基礎設施類的,個人感覺還是vmware或者xenserver的比較靠譜,但是費用高昂,中小型公司不會采用。
對于中大型企業(yè)應該會采用商用的私有云服務,但是對于阿里、騰訊、百度,它們應該是完全自主的云管理系統(tǒng)。