面向云原生的混沌工程工具-ChaosBlade

發表時間:2020-02-28 13:36

導讀:隨著云原生系統的演進,如何保障系統的穩定性受到很大的挑戰,混沌工程通過反脆弱思想,對系統注入故障,提前發現系統問題,提升系統的容錯能力。ChaosBlade 工具可以通過聲明式配置執行混沌實驗,簡單高效。本文將會重點介紹 ChaosBlade 以及云原生相關的實驗場景實踐。

ChaosBlade 介紹

ChaosBlade 是阿里巴巴開源的一款遵循混沌實驗模型的混沌實驗執行工具,具有場景豐富度高、簡單易用等特點,而且可以很方便的擴展實驗場景,開源后不久就被加入到 CNCF Landspace 中,成為主流的一款混沌工具。

實驗場景

目前支持的實驗場景如下:

  • 基礎資源場景:CPU 負載、內存占用、磁盤 IO 負載、磁盤占用、網絡延遲、網絡丟包、網絡屏蔽、域名不可訪問、shell 腳本篡改、殺進程、進程 Hang、機器重啟等;
  • 應用服務場景:支持 Java 應用和 C++ 應用內的實驗場景。Java 的場景組件豐富,例如支持 Dubbo、RocketMQ、HttpClient、Servlet、Druid等,而且支持編寫 Java 或 Groovy 腳本實現復雜的實驗場景;
  • 容器服務場景:支持 Kubernetes 和 Docker 服務,包含 node、pod 和 container 三種資源的實驗場景,例如 Pod 網絡延遲、丟包等。

混沌實驗模型

以上所有的實驗場景都遵循混沌實驗模型,此模型共分為四層,包含:

  • Target:實驗靶點。指實驗發生的組件,如容器、應用框架(Dubbo、Redis)等;
  • Scope:實驗實施的范圍。指具體觸發實驗的機器或者集群等;
  • Matcher:實驗規則匹配器。根據所配置的 Target,定義相關的實驗匹配規則,可以配置多個。由于每個 Target 可能有各自特殊的匹配條件,比如 RPC 領域的 Dubbo,可以根據服務提供者提供的服務和服務消費者調用的服務進行匹配,緩存領域的 Redis,可以根據 set、get 操作進行匹配;
  • Action:指實驗模擬的具體場景,Target 不同,實施的場景也不一樣,比如磁盤,可以演練磁盤滿,磁盤 IO 讀寫高等。如果是應用,可以抽象出延遲、異常、返回指定值(錯誤碼、大對象等)、參數篡改、重復調用等實驗場景。

比如一臺 IP 是 10.0.0.1 機器上的應用,調用 com.example.HelloService[@1.0.0 ]() Dubbo 服務延遲 3s,基于此模型可以描述為對 Dubbo 組件(Target)進行實驗,實驗實施的范圍是 10.0.0.1 主機(Scope),調用 com.example.HelloService[@1.0.0 ]() (Matcher)服務延遲 3s(Action),對應的 chaosblade 命令為:

所以此模型很簡單清晰的表達出實驗場景,易于理解。下文中的云原生實驗場景也基于此模型定義。

面向云原生的實驗場景

實現方案

將混沌實驗場景按照上述的實驗模型,定義為 Kubernetes 中的資源,并通過自定義控制器來管理,可以通過 Yaml 配置或者直接執行 blade 命令執行。

ChaosBlade Operator 定義了資源控制器,并且會以 daemonset 的方式,在每個節點上部署一個 chaosblade-tool pod 來執行混沌實驗。不同的實驗場景內部實現方式不同,比如 Node 實驗場景,其上面部署的 chaosblade-tool 內部執行即可,而 Container 內的實驗場景,控制器會將 chaosblade 包拷貝到目標 Container 中執行。

使用方式

安裝必要組件

安裝 ChaosBlade Operator,可通過地址下載 chaosblade-operator-0.0.1.tgz,使用以下命令安裝:

安裝在 kube-system 命令空間下。ChaosBlade Operator 啟動后會在每個節點部署 chaosblade-tool Pod 和一個 chaosblade-operator Pod。可通過以下命令查看安裝結果:

執行實驗

執行方式有兩種:

  • 一種是通過配置 yaml 方式,使用 kubectl 執行;
  • 另一種是直接使用 chaosblade 包中的 blade 命令執行。

下面以指定一臺節點,做 CPU 負載 80% 實驗舉例。

yaml 配置方式

如上所示,配置好文件后,保存為 chaosblade_cpu_load.yaml,使用以下命令執行實驗場景:

可通過以下命令查看每個實驗的執行狀態:

查看更多實驗場景配置事例。

blade 命令執行方式

下載 chaosblade 工具包,解壓即可使用。還是上述例子,使用 blade 命令執行如下:

使用 blade 命令執行,會返回實驗的執行結果。

修改實驗

yaml 配置文件的方式支持場景動態修改,比如將上述的 cpu 負載調整為 60%,則只需將上述 value 的值從 80 改為 60 即可,例如:

然后使用 kubeclt apply -f chaosblade_cpu_load.yaml 命令執行更新即可。

停止實驗

可以通過以下三種方式停止實驗:

根據實驗資源名停止

比如上述 cpu-load 場景,可以執行以下命令停止實驗:

通過 yaml 配置文件停止

指定上述創建好的 yaml 文件進行刪除,命令如下:

通過 blade 命令停止

此方式僅限使用 blade 創建的實驗,使用以下命令停止:

是執行 blade create 命令返回的結果,如果忘記,可使用 blade status --type create 命令查詢。

卸載 chaosblade operator

執行 helm del --purge chaosblade-operator 卸載即可,將會停止全部實驗,刪除所有創建的資源。

總結

ChaosBlade 基于混沌實驗模型,友好地將 Kubernetes 資源控制結合,部署簡單而且使用簡潔,實驗可控。除此之外 ChaosBlade 基于實驗模型實現了很多領域場景執行器,可以很方便的擴展實驗場景,可詳見附錄中的項目列表。

社區共建

ChaosBlade 自開源以來,共有近 30 多位貢獻者加入和很多企業的關注及使用,非常感謝各位。同時非常歡迎更多的人參與進來,使 ChaosBlade 變的更加強大,覆蓋更多的場景,成為各個企業穩定的、通用的混沌工程工具。

貢獻的形式可以是提 bug、提交代碼、編寫文檔、補充單元測試、參與問題討論等等。ChaosBlade 相信:開源世界中,任何幫助都是貢獻。

附錄

項目列表如下:

  • ChaosBlade CLI(調用入口)
  • ChaosBlade 實驗模型定義
  • 基礎資源場景執行器
  • Docker 場景執行器
  • Kubernetes 場景執行器
  • Java 應用場景執行器
  • C++ 應用場景執行器

-----------------------------------

本文作者:肖長軍(穹谷)

原文鏈接:https://yq.aliyun.com/articles/725935?utm_content=g_1000085381

本文為云棲社區原創內容,未經允許不得轉載。

責任編輯:

电子游艺行业