contents
- 応答時間のゆらぎについて
- 訴えたい点
- 目次
- 新しいストレージ
1
応答時間のゆらぎについて
多くの読者にとって身近なデバイスとして、「ディスク」と「ネットワーク」について考えてみる。 デバイスの応答時間を考えた時、PCのローカルなバスに接続されたシステムディスクと、 NICに接続されたLANケーブルの先に広がっているネットワークのどちらが安定しているだろうか? 何を比べたら良いかわからなければ、 「ネットワーク」を「ネットワーク上の共有ディスク」に置き換えても良い。 Usagiのパスワードを変更するとsitsに繋がらなくなる、 というような例外的な事象を差し引いたとしても、 「ネットワーク上の共有ディスク」が「システムディスク」よりも不安定であるということに、 疑問の余地は無いだろう。何故か?
訴えたい点
技術的な結論は、わかってしまえば取るに足らない、ごく当たり前なことでしかない。 本稿にて訴えたいのは、その当たり前の結論に至る過程である。 ごく当たり前な結論を導く過程を、恐ろしく困難にしていたのは、 思い込み、固定観念である。
「クラウド」の技術的核心の一つである仮想化の真の姿。
「ネットワークがおかしいからディスクがおかしいように見える」という可能性も消えてはいない。つまり、MiFの素性について何一つわかってはいないのと同じである。
ディスクI/OはUNINTERRUPTEBLEなタスクであり、 もしもI/Oが止まったらそのタスクは永久に止まる。 割り込みも許されない。 つまり、Linuxカーネルも、「ディスクI/Oが止まることはあり得ない」と 思っているのだ。
目次
- なんかおかしくない?
- vi使ってると、たまに固まる
- 生死監視が失敗する
- クラスタが暴れる
- RTU
- たまに時計がずれてる
- 何がおかしい?
- ネットワーク?
- ping打ってみよう
- pingのエラー/遅延はそれぞれ何を意味する?
- pingが遅延してるように見えるのは時計が狂うから?
- 訊かれたら時刻を返すサーバ作ってみた
- 時刻は狂ってないよ
- 何で?
- そうか、ディスクか!!
- もしディスクが止まっていたら、全ての辻褄が合う
- ここまで辿り着くのにこんなに時間がかかったのは、「システムディスクが止まるはずがない」という思い込み
- 新しいストレージ
- 直った?
- 空いてるだけ?
- 何を基準に判断する? 何をもって直ったと言ってる?
- I/O waitが高いことは、何かをやった結果でしかない
- 結論
- ネットワークかストレージか、といったレベルでは、ほぼ原因が特定できたが、それ以上のことは何もわかっていない。
- ブレードサーバ、VMware、ストレージといった個々の要素については、社内にもエキスパートがいる
- しかし、それらを組み合わせた時の振る舞い、その上で稼働する仮想サーバの素性について、我々は実は何もわかっていない
- それは、恐らくこうやって痛い目に合いながら少しずつ解き明かし、身につけていくしかない
- そうして蓄積していったノウハウこそが、我々の武器だ!! 小っ恥ずかしいが、偉い人は喜びそうな結論。
新しいストレージ
ディスクが止まっていると仮定すれば様々な現象がうまく説明できる、と述べた。 これが通常の物理サーバであれば、十中八九ディスク装置そのものの 異 さらに、「仮想マシンから見たシステムディスク」は、
Last modified: 2010-08-31 by Unknown