サーバー落ち事件について
おはようございます。
1月3日の朝を迎えました。本日は快晴です。
昨日の「あっとほぉーむカフェ」帰宅時に発生した、入店予約システムのトラブルについて感じたことを書きます。
システムの可用性とデザイン
昨朝、アクセス集中により予約サーバーがダウンしました。
最終的にはサーバーを通常の6倍(6台体制)に増強して復旧しましたが、X上では多くの不満の声が上がっていました。
サービスにおいて重要なポイントは「可用性」、つまり**「必要な時に正しく使えること」**です。
以前も、ルール上は「連続エントリー禁止」なのに、システム側で制限がかかっていないことがありました。
全体的なシステムデザインの設計思想に、一貫した視点が欠けているように感じます。
参考:システムの非機能要件
運用におけるリソースの問題
今朝はサーバー増強のおかげで、滞りなくエントリーを済ませることができました。
「最初から増強すべき」という意見もあります。
以前は他社サービスを利用していたため、負荷予測が難しかったのかもしれません。
しかし、過去の待ち時間の数字から通常時の数倍以上の負荷という推測はできたはずです。
先回りして対応できなかったのは、
- 担当者が不在で予想ができなかったのか
- 人手不足で手が回らなかったのか
といった、組織的な運用体制やリソース配分に根本的な原因があるのではないかと推察しています。
今日もすでに閉店間際まで待ち時間が伸びていますが、無事にエントリーできたので帰宅してこようと思います。
ブログ運用の省力化
今年からブログの更新スタイルを一部変更します。
写真はブログ内に含めない方針にしました。
理由は2点あります。
- 省力化: 入力を簡略化し、毎日書きやすくするため。
- 負荷軽減: 増え続ける画像データの管理コストを抑えるため。
活動の記録はXで追跡できるため、
今後は役割を分担させて運用していきます。
ほなまた!