掲示板システム
ホーム
アクセス解析
カテゴリ
ログアウト
常駐APLの状態を監視して、不具合発生時に自動起動させるには? (ID:143252)
名前
ホームページ(ブログ、Twitterなど)のURL (省略可)
本文
この手の異常系対策って、結構大変なんですよね…。 不具合・データ異常ぐらいは検出できても、ハード障害・人的ミスなどは 事前の想定が意外と難しかったり。 異常が起きたことを記録して再起動する仕組みを作ったら、 想定以上のデータが飛来して、ログが溢れてしまったり。 > 監視APLは常駐ではなく、タスクスケジューラで一定期間毎に起動しようと思います。 いいんじゃないでしょうか。(現場を知らないので責任は持てませんが) その場合、タスクがきちんと起動したかどうかの確認も必要かと思います。 タスクの起動状況を(ログ等で)定期的に確認する運用を組み込むとか。 > 不具合は様々な原因で発生するかと思いますが、PC再起動が最大公 > 約数的に最も最適で有ると考えました。いかかでしょうか? スマートフォンでさえ、ハングアップで手動再起動が必要なケースは 多々あるわけですし、一般論で良いのなら、サービスの再起動や OS あるいは PC の再起動の実施自体は、有効な手法の1つだと思います。 自動回復ではなく、人的判断が求められるケースもあるでしょうから、 それが“最適”かどうかの判断はできませんけれどね。 (迂闊に再起動できないケースもあるはず) ただ、再起動は対処療法/緊急措置であって、問題原因の解決策にはなりません。 先の話は、自動再起動の仕組みを用意するとともに、 ・再起動が必要になったという事実を認識できるような運用手法 ・障害発生時(あるいは発生の直前)に、どのような状態にあったのかの記録 ・実運用に影響を与えずに障害の再現性チェックを行うための環境 なども合わせて考えておかねばならないかな、という話です。 運用マニュアルの作成も必要でしょうし。 > 不具合原因が突き止められれば一番良いのですが.. 不具合の原因を突き止めるのも重要ですが、そもそもその前に、 不具合があったことを確実に認識できるようにしておくことも必要ですね。 > 宜しければアドバイスをお願いします。 要件次第で要求性能も変わるので、あまりアドバイスはしにくいですが、 実際にあった分かりにくい例として: 毎日昼過ぎのバッチ処理の後で、特定の常駐アプリがハングアップ することがあり、アプリの不具合調査の間、再起動で凌いでいた。 →アプリの不具合かと思いきや、実は電源自体の初期不良で、運が悪いと 日中に熱暴走していたことがメーカー側の調査で判明。 > コネクションに複数回連続して失敗 PC ではなく、通信機器側の再起動やハード交換が必要なケースもありますね。
←解決時は質問者本人がここをチェックしてください。
戻る
掲示板システム
Copyright 2020 Takeshi Okamoto All Rights Reserved.