1. ホーム
  2. erlang

[解決済み] Erlangの99.9999999%(ナインナイン)の信頼性

2022-10-19 11:41:19

質問

Erlang は20年以上にわたって稼働率99.9999999%で実稼働システムで使われてきたと報告されています。

という計算をしました。

20*365.25*24*60*60*(1 - 0.999999999) == 0.631 s

つまり、20 年間でシステムのダウンタイムは 1 秒未満しかないのです。私はこのことの妥当性に異議を唱えるつもりはありません。ただ、どのようにして (意図的または偶然に) システムをわずか 0.631 秒間シャットダウンできるのかに興味があるだけです。大規模なソフトウェアシステムに詳しい方、説明していただけませんか?ありがとうございます。


処理ユニット (またはマシン) のクラスタ上でサービスのダウンタイムを計算する方法を知っている人はいますか?

どのように解決するのですか?

信頼性の数値は、 のどの部分でも合計時間を測定するものではありませんでした。 AXD301 (問題のプロジェクト) のどの部分も 20 年以上にわたって停止していた時間の合計を測定するものではありません。それは、その20年間で、が提供するサービスが停止した時間の合計を表しているのです。 AXD301 システムで提供されるサービスがオフラインになったことのある 20 年間の合計時間を表しています。微妙な違いです。ジョー・アームストロングが言うように ここで :

<ブロッククオート

AXD301は、99.9999999%という高い信頼性を達成しています。この背景を考えてみましょう。5 ナインの信頼性は良好とされています (ダウンタイムが 5.2 分/年)。7 つの信頼性はほとんど達成できませんが、私たちは 9 つを達成しました。

これはなぜでしょうか? 共有状態がなく、さらに洗練されたエラーリカバリーモデルがあるからです。

もう少し掘り下げると、Erlangの原作者であるJoeが書いた博士論文(のケーススタディが含まれています)では AXD301 のケーススタディが含まれています)、読んでみてください。

この章で学習するプロジェクトの1つは、Ericsson AXD301です。 高性能・高信頼性ATMスイッチ .

つまり、スイッチが属するネットワークがダウンタイムなしに稼働している限り、著者は以下のような 9 つの信頼性を表明することができるのです。 AXD301 に対して "9ナイン信頼性" と述べることができます (これは彼が具体的なことを避けて言ったことです)。それは必ずしもErlangがそのような高い信頼性の唯一の原因であることを意味するものではありません。

編集部:実際、"20 years"自体が誤訳のような気がします。Joeは同じ記事で20年という数字に言及していますが、それは実際には999という信頼性の数字とは関係なく、(他の人が言及しているように)潜在的にはもっと短い研究から生まれたものです。