12/03/2017

(Google) Site Reliability Engineer (網站可靠性工程師)

王立恒Google 儲存 SRE 團隊負責人第一手經驗大公開iThome2016-04-21
Google 賦予 SRE 團隊三大工作目標,包括了確保正式環境的可靠性、水平擴展性及效能表現。為了實現這些目標,SRE 得想辦法讓負責系統的運作更自動化與視覺化,也得打造儀表板以時時監控這些系統的效能表現。例如 SRE 可以更換Google 服務底層的資料庫,來改善服務的延遲,或開發許多自動化程式加速系統部署,或是設計軟體機器人 (Software robot),來進行跨系統資料傳遞、自動關閉特定機器,甚至是關閉整座資料中心。Google 的 SRE 團隊不會集中在一處,Google 全球各地據點都有分配 SRE 團隊,來支援雲端業務。
Chris Jones, Jennifer Petoff, Niall Richard Murphy, editors, Site Reliability Engineering: How Google Runs Production Systems, O'Reilly Media, Inc., 2016.

沒有留言:

張貼留言