Перейти к основному контенту

Действия при неудачной попытке установки и восстановление работоспособности в случае сбоя

Действия при неудачной попытке установки wiSLA

В случае если установка wiSLA завершилась c ошибкой, требуется:

  1. Проанализировать причину сбоя установки. Для этого можно использовать log-файлы программы установки в текущем каталоге, а также прокрутку в окне для просмотра хода установки.
  2. Завершить все процессы, связанные с java.
  3. Выйти из программы установки и удалить новые каталоги в /home/wisla (hadoop, hbase, postgresql, zookeeper).

Повторить попытку установки с исправленными настройками.

Регламент по восстановлению работоспособности системы wiSLA в случае сбоя

Как правило, внешние проявления не дают информации об основной причине сбоя. Ими могут быть: 

  • повторяющиеся проблемы при открытии страниц портала;
  • нехарактерное поведение элементов интерфейса;
  • ошибки при сохранении объектов инфраструктуры;
  • отсутствие данных от всех измерительных зондов;
  • отсутствие писем о неисправностях;
  • ошибочные даты на календарях;
  • ошибочная дата и время в событиях;
  • недоступный портал.

При возникновении одного или нескольких проявлений требуется провести первичную диагностику для установления причины сбоя (таблица 5).

Таблица 5 – Первичная диагностика и устранение проблемы.

Возможная причина сбоя

Действия по выявлению

Устранение проблемы

1. Отказ одного из компонентов wiSLA (не является самостоятельной причиной, требует продолжения диагностики)

Просмотр статусов компонентов wiSLA в программе установки

Поиск основной причины сбоя, перезапуск всех компонентов wiSLA

2. Резкий скачок времени на сервере

Проверка времени на каждом из узлов, где установлена wiSLA.

Проверка работоспособности службы NTP

Установка корректных даты и времени, запуск NTP, перезапуск всех компонентов wiSLA. Если база данных испорчена некорректными данными, потребуется выполнить восстановление из резервной копии (обратитесь в службу технической поддержки)

3. Продолжительный разрыв связи между узлами wiSLA

Определение доступности серверов, изучение журналов работы системы, опрос системных администраторов

Перезапуск всех компонентов wiSLA

4. Аварийная перезагрузка одного или нескольких узлов

Сравнение времени непрерывной работы серверов wiSLA, изучение журналов работы операционной системы сервера с наименьшим временем непрерывной работы

Перезапуск всех компонентов wiSLA

5. Исчерпано свободное место на одном из дисков

Получение информации об использовании дискового пространства на всех серверах wiSLA

Очистка дисков, добавление дисков, перезапуск всех компонентов wiSLA. Если перезапуск не решает проблему, возможно, повреждена база данных или программные файлы. В этом случае потребуется восстановить систему из резервной копии или выполнить полную переустановку системы (обратитесь в службу технической поддержки)

6. Вмешательство в работу сервера (изменение настроек сети, файловой системы и т.п. при работающей wiSLA)

Опрос системных администраторов

Перезапуск всех компонентов wiSLA

7. Неудачное обновление wiSLA

Чтение журнальных файлов после обновления

Обратитесь в службу технической поддержки

8. Аппаратные проблемы на сервере

Определение проблемного сервера, перезагрузка, просмотр данных POST, изучение журналов операционной системы, проверка диска, тестирование ОЗУ, замена компонентов на заведомо исправные и т.д. Выходит за рамки настоящего Руководства

Действия зависят от характера сбоя. Если потери данных не было, будет достаточно перезапустить все компоненты wiSLA.

Если в ходе перезапуска возникли проблемы или требуется восстановить программные файлы, обратитесь в службу технической поддержки