Действия при неудачной попытке установки и восстановление работоспособности в случае сбоя
Действия при неудачной попытке установки wiSLA
В случае если установка wiSLA завершилась c ошибкой, требуется:
- Проанализировать причину сбоя установки. Для этого можно использовать log-файлы программы установки в текущем каталоге, а также прокрутку в окне для просмотра хода установки.
- Завершить все процессы, связанные с java.
- Выйти из программы установки и удалить новые каталоги в /home/wisla (hadoop, hbase, postgresql, zookeeper).
Повторить попытку установки с исправленными настройками.
Регламент по восстановлению работоспособности системы wiSLA в случае сбоя
Как правило, внешние проявления не дают информации об основной причине сбоя. Ими могут быть:
- повторяющиеся проблемы при открытии страниц портала;
- нехарактерное поведение элементов интерфейса;
- ошибки при сохранении объектов инфраструктуры;
- отсутствие данных от всех измерительных зондов;
- отсутствие писем о неисправностях;
- ошибочные даты на календарях;
- ошибочная дата и время в событиях;
- недоступный портал.
При возникновении одного или нескольких проявлений требуется провести первичную диагностику для установления причины сбоя (таблица 5).
Таблица 5 – Первичная диагностика и устранение проблемы.
Возможная причина сбоя |
Действия по выявлению |
Устранение проблемы |
1. Отказ одного из компонентов wiSLA (не является самостоятельной причиной, требует продолжения диагностики) |
Просмотр статусов компонентов wiSLA в программе установки |
Поиск основной причины сбоя, перезапуск всех компонентов wiSLA |
2. Резкий скачок времени на сервере |
Проверка времени на каждом из узлов, где установлена wiSLA. Проверка работоспособности службы NTP |
Установка корректных даты и времени, запуск NTP, перезапуск всех компонентов wiSLA. Если база данных испорчена некорректными данными, потребуется выполнить восстановление из резервной копии (обратитесь в службу технической поддержки) |
3. Продолжительный разрыв связи между узлами wiSLA |
Определение доступности серверов, изучение журналов работы системы, опрос системных администраторов |
Перезапуск всех компонентов wiSLA |
4. Аварийная перезагрузка одного или нескольких узлов |
Сравнение времени непрерывной работы серверов wiSLA, изучение журналов работы операционной системы сервера с наименьшим временем непрерывной работы |
Перезапуск всех компонентов wiSLA |
5. Исчерпано свободное место на одном из дисков |
Получение информации об использовании дискового пространства на всех серверах wiSLA |
Очистка дисков, добавление дисков, перезапуск всех компонентов wiSLA. Если перезапуск не решает проблему, возможно, повреждена база данных или программные файлы. В этом случае потребуется восстановить систему из резервной копии или выполнить полную переустановку системы (обратитесь в службу технической поддержки) |
6. Вмешательство в работу сервера (изменение настроек сети, файловой системы и т.п. при работающей wiSLA) |
Опрос системных администраторов |
Перезапуск всех компонентов wiSLA |
7. Неудачное обновление wiSLA |
Чтение журнальных файлов после обновления |
Обратитесь в службу технической поддержки |
8. Аппаратные проблемы на сервере |
Определение проблемного сервера, перезагрузка, просмотр данных POST, изучение журналов операционной системы, проверка диска, тестирование ОЗУ, замена компонентов на заведомо исправные и т.д. Выходит за рамки настоящего Руководства |
Действия зависят от характера сбоя. Если потери данных не было, будет достаточно перезапустить все компоненты wiSLA. Если в ходе перезапуска возникли проблемы или требуется восстановить программные файлы, обратитесь в службу технической поддержки |
Нет комментариев