【2/18開催】OpenStack最新情報セミナー登壇レポート
ミラクル・リナックス 松永です。
さて、先日2月18日(水)に、日本仮想化技術株式会社様の主催で開催されました「OpenStack最新情報セミナー」にて、弊社開発部の佐藤剛春が登壇しました。
弊社の講演内容は「使ってわかった!現場担当者が語るOpenStack運用管理の課題」。
先日2/3~4にかけて開催された「OpenStack Days Tokyo 2015」で登壇した内容とほぼ同じでしたが、今回は日本仮想化技術株式会社代表取締役社長兼CEOの宮原様とのジョイント・セッション。
お二人はある会社の同期入社だったそうで、当日のセッションも息の合ったところを見せていただきました。
(画像が暗くてすいません。)
さて、本題ですが、詳しい内容はSlideshareに掲載されている資料をご覧いただくこととして、ここでは大体どのような話がされていたのかをかいつまんでご紹介します。
- 「使ってわかった!現場担当者が語るOpenStack運用管理の課題」資料(Slideshare)
http://www.slideshare.net/VirtualTech-JP/openstack-44761203
まずは、OpenStack運用上の課題ということで、スケールアウトすることが前提であること、一人の管理者が1000台面倒を見れるような効率化が必要であること、障害検知方法が多岐に渡ることなどが紹介されていました。
これらの課題に対して、Zabbixと運用統合ソフト「Hatohol」でどのあたりまでできるかについて話をされていました。
少しピックアップして紹介すると...
- Zabbixでは1000台くらいの監視で限界に近くなる。それ以上にスケールアウトする場合には、Zabbixサーバを追加しなければならなくなる。
- このような場合に、複数のZabbixをまとめて一元的監視できるのがHatohol。
オープンな開発コミュニティで開発されており、他にCeirometerとの連携やRedmineとの連携によるインシデント自動登録も可能。
- Hatohol+Zabbixならば、OpenStackのマルチテナント構成の監視も可能。将来的には他のOSSとも連携してシームレスな運用管理を実現する。
概ねこのような内容でした。
また、宮原様から「どこから手を付けたらいいの?」といったご指摘があり、簡単に試していただくことのできる評価版(仮想マシンイメージ)やOpenStackを監視するための構築手順書、Zabbixテンプレートの案内がありました。
こちらにも掲載しますので、ご興味のある方はぜひご利用下さい。
- 構築手順書や評価版、Zabbixテンプレートのダウンロードはこちら。
http://www.miraclelinux.com/product-service/hatohol/download
ここまでが前半です。
そして後半は、まだ研究段階の話、つまり「今できること」ではなく、これからのインフラ監視がどうなっていくのか?にフォーカスし、その課題と将来の解決に向けたヒントとなりそうなことを話されていました。
こちらも興味深い内容でしたので、いくつかピックアップして紹介したいと思います。
- プロセスの状態だけでなく、APIやDBのレスポンスなども見ないと正常かどうかはわからない。
- サービスの継続性を確認するために、常に何らかの障害を引き起こす必要がある。
(つまり、多少の障害がおきてもサービスが止まらないことの確認。)
ただその一方で、わざと引き起こした障害もZabbixは障害として検知してしまうので、これをどうした良いかが悩みどころ。
- 閾値も、単純に超えた/下回っただけではなく、その傾きやその他の情報を組み合わせ、本当に危険かどうかを判断すべき。これを機械学習によって自動的に閾値変更できないかと考えている。
- 不正な利用によるリソースの異常利用の検出も機械学習で解決できないかを考えており、実際に研究に着手している企業(海外)もある。