# Действия при неудачной попытке установки и восстановление работоспособности в случае сбоя ## Действия при неудачной попытке установки wiSLA В случае если установка wiSLA завершилась c ошибкой, требуется: 1. Проанализировать причину сбоя установки. Для этого можно использовать log-файлы программы установки в текущем каталоге, а также прокрутку в окне для просмотра хода установки. 2. Завершить все процессы, связанные с java. 3. Выйти из программы установки и удалить новые каталоги в /home/wisla (hadoop, hbase, postgresql, zookeeper). Повторить попытку установки с исправленными настройками. ## Регламент по восстановлению работоспособности системы wiSLA в случае сбоя Как правило, внешние проявления не дают информации об основной причине сбоя. Ими могут быть: - повторяющиеся проблемы при открытии страниц портала; - нехарактерное поведение элементов интерфейса; - ошибки при сохранении объектов инфраструктуры; - отсутствие данных от всех измерительных зондов; - отсутствие писем о неисправностях; - ошибочные даты на календарях; - ошибочная дата и время в событиях; - недоступный портал. При возникновении одного или нескольких проявлений требуется провести первичную диагностику для установления причины сбоя (таблица 5). Таблица 5 – Первичная диагностика и устранение проблемы.
**Возможная причина сбоя** | **Действия по выявлению** | **Устранение проблемы** |
1\. Отказ одного из компонентов wiSLA (не является самостоятельной причиной, требует продолжения диагностики) | Просмотр статусов компонентов wiSLA в программе установки | Поиск основной причины сбоя, перезапуск всех компонентов wiSLA |
2\. Резкий скачок времени на сервере | Проверка времени на каждом из узлов, где установлена wiSLA. Проверка работоспособности службы NTP | Установка корректных даты и времени, запуск NTP, перезапуск всех компонентов wiSLA. Если база данных испорчена некорректными данными, потребуется выполнить восстановление из резервной копии (обратитесь в службу технической поддержки) |
3\. Продолжительный разрыв связи между узлами wiSLA | Определение доступности серверов, изучение журналов работы системы, опрос системных администраторов | Перезапуск всех компонентов wiSLA |
4\. Аварийная перезагрузка одного или нескольких узлов | Сравнение времени непрерывной работы серверов wiSLA, изучение журналов работы операционной системы сервера с наименьшим временем непрерывной работы | Перезапуск всех компонентов wiSLA |
5\. Исчерпано свободное место на одном из дисков | Получение информации об использовании дискового пространства на всех серверах wiSLA | Очистка дисков, добавление дисков, перезапуск всех компонентов wiSLA. Если перезапуск не решает проблему, возможно, повреждена база данных или программные файлы. В этом случае потребуется восстановить систему из резервной копии или выполнить полную переустановку системы (обратитесь в службу технической поддержки) |
6\. Вмешательство в работу сервера (изменение настроек сети, файловой системы и т.п. при работающей wiSLA) | Опрос системных администраторов | Перезапуск всех компонентов wiSLA |
7\. Неудачное обновление wiSLA | Чтение журнальных файлов после обновления | Обратитесь в службу технической поддержки |
8\. Аппаратные проблемы на сервере | Определение проблемного сервера, перезагрузка, просмотр данных POST, изучение журналов операционной системы, проверка диска, тестирование ОЗУ, замена компонентов на заведомо исправные и т.д. Выходит за рамки настоящего Руководства | Действия зависят от характера сбоя. Если потери данных не было, будет достаточно перезапустить все компоненты wiSLA. Если в ходе перезапуска возникли проблемы или требуется восстановить программные файлы, обратитесь в службу технической поддержки |