? проектирование систем для достижения требуемого Уровня Доступности;
? проектирование систем для достижения требуемой способности восстановления
;
? вопросы безопасности;
? управление обслуживанием;
? разработка Плана Доступности.
? Мониторинг
? проведение измерений и составление отчетов.
Ниже дается описание основных видов деятельности.
14.4.1. Определение требований к доступности сервиса
Данный вид работ должен выполняться до заключения соглашения об Уровне Сервиса, и он затрагивает новые ИТ-услуги и изменения в уже существующих услугах. ИТ-организация должна определить как можно быстрее, будет ли она выполнять эти требования и если да, то как. Во время выполнения этого вида деятельности определяются:
? ключевые бизнес-функции;
? согласованный период простоя ИТ-сервиса;
? количественная оценка требований к доступности сервиса;
? количественная оценка воздействия незапланированного простоя на бизнес-функции;
? рабочие часы заказчика;
? соглашения об "окнах" для планового обслуживания.
Четкое определение требований к доступности сервиса на ранних этапах позволяет избежать недоразумений и неправильного толкования договоренностей на более поздних этапах. Требования заказчика необходимо сопоставлять с теми, которые организация может предоставить. Если выявляется несоответствие, то следует определить влияние такого несоответствия на стоимость услуг.
14.4.2. Проектирование систем для достижения требуемого Уровня Доступности
Следует как можно раньше выявить различные виды уязвимости, влияющие на доступность. Это позволит избежать неоправданно высокой стоимости разработки, незапланированных расходов на более поздних этапах, наличия Единой точки сбоя
(SPOF), дополнительных затрат по счетам поставщиков и задержек с выпуском релизов
Хорошее проектирование, выполненное с учетом стандартов доступности, позволит заключить с поставщиками эффективные договоры на обслуживание. При проектировании используется ряд методов, таких как Анализ степени влияния сбоя компонента
(CFIA – см. раздел 14.4.9) для выявления отказов, вызванных наличием SPOF, методика CCTA по анализу и Управлению Рисками
(CRAMM – см. главу "Управление Непрерывностью ИТ-сервиса") и методы моделирования. Если требования стандартов доступности не могут быть удовлетворены, лучший путь – попытаться внести соответствующие усовершенствования в проект. В обеспечении соответствия стандартам может помочь использование дополнительных технологий, других методов, инструментальных средств разработки, другой стратегии Управления Релизами, улучшение или изменение процесса проектирования.
Если требования особенно высоки, то можно попытаться использовать другую отказоустойчивую технологию, другие Процессы Управления Услугами (Управление Инцидентами, Проблемами и Изменениями) или дополнительные ресурсы Сервис-менеджмента. Выбор варианта во многом зависит от имеющихся финансовых средств.
14.4.3. Проектирование систем для достижения требуемого Уровня Обслуживания
Поскольку постоянная доступность бывает редко достижима, следует учитывать периоды возможной недоступности сервиса. При прерывании сервиса важно быстро и правильно устранить сбой и попытаться достигнуть согласованных стандартов доступности. Проектирование процедур восстановления включает в себя такие аспекты, как использование эффективного Процесса Управления Инцидентами и соответствующие процедуры эскалации, оповещения, резервного копирования и восстановления. Задачи, ответственность и полномочия должны быть четко определены.
14.4.4. Ключевые вопросы безопасности
Безопасность и надежность тесно взаимосвязаны. Недостаточная проработка вопросов информационной безопасности может повлиять на доступность сервиса. Высокий Уровень Доступности должен поддерживаться эффективно действующей системой информационной безопасности. На этапе планирования следует учитывать вопросы безопасности и анализировать их воздействие на предоставление услуг.
Среди вопросов могут быть следующие:
? определение лиц, имеющих право доступа в защищенные области;
? определение видов авторизации.
14.4.5. Управление Обслуживанием
В обычной практике всегда бывают запланированные периоды недоступности сервиса. Эти периоды можно использовать для проведения превентивных действий, таких как обновление программного и аппаратного обеспечения, а также выполнения изменений. Однако в условиях непрерывного бизнеса становиться все труднее определить периоды, выделяемые для обслуживания. Проектирование, реализация и контроль деятельности по обслуживанию систем стали одним из важных направлений работы Процесса Управления Доступностью.
Обслуживание следует проводить в такие периоды, когда степень его воздействия на предоставление услуг является минимальной. Это значит, что необходимо заранее определить цели обслуживания, период его проведения, и какие работы при этом будут выполняться (для этого можно использовать метод Анализа влияния отказа компонентов – CFIA
). Такая информация об обслуживании очень важна для Процесса Управления Изменениями и для других процессов.
14.4.6. Проведение измерений и составление отчетов
Проведение измерений и составление отчетов являются важными видами деятельности в Процессе Управления Доступностью, т. к. они создают основу для верификации соглашений о предоставлении сервиса, для разрешения проблем и выработки предложений по улучшению сервиса.
? Если вы не измеряете, вы не можете управлять.
? Если вы не измеряете, вы не можете улучшать.
? Если вы не измеряете, вам, вероятно, все равно.
? Если вы не можете влиять, то не стоит и измерять.
Цикл жизни инцидента включает в себя следующие этапы:
? Возникновение инцидента: время, когда пользователь узнал о сбое или когда сбой был обнаружен (автоматически или вручную).
? Обнаружение: поставщик сервиса проинформирован о сбое. Инцидент получает статус "Сообщено". Затраченное на это время известно как время обнаружения.
? Реагирование: поставщику сервиса необходимо время, чтобы прореагировать на инцидент. Это время реагирования, оно используется для проведения диагностики, за которой следует выполнение ремонтных работ. В Процесс Управления Инцидентами входят такие виды работ, как Прием и Регистрация инцидентов, Классификация, Сопоставление, Анализ и Диагностика.
? Ремонт: поставщик сервиса восстанавливает компоненты, которые вызвали сбой.
? Восстановление сервиса: сервис восстановлен. При этом выполняются такие работы, как конфигурирование и инициализация, и затем производится восстановление предоставления сервиса пользователям.
На рис. 14.3 показаны периоды времени, которые поддаются измерению.
Рис. 14.3. Измерение доступности (источник: OGC)
Как видно из рисунка, время реагирования ИТ-организации и внешних подрядчиков является одним из факторов, определяющих время простоя. Поскольку этот фактор непосредственно влияет на качество сервиса и ИТ-организация может его контролировать, то в соглашения об Уровне Сервиса можно включать договоренности относительно времени реагирования. При измерениях можно брать средние значения для получения правильного представления о соответствующих параметрах. Средние значения можно использовать для определения достигнутого Уровня Сервиса и для оценки ожидаемой в будущем доступности. Эту информацию можно использовать при разработке Планов Улучшения Сервиса.
В Процессе Управления Доступностью, как правило, используются следующие метрики:
? Среднее время ремонта (Mean Time to Repair – MTTR): среднее время между возникновением сбоя и восстановлением сервиса, также известное как "простой". Оно складывается из времени обнаружения сбоя и времени разрешения сбоя. Данная метрика относится к таким аспектам сервиса, как способность восстановления
и обслуживаемость
.
? Среднее время между сбоями (Mean Time Between Failures – MTBF): среднее время между восстановлением после одного сбоя и возникновением другого, также известное как "период работоспособного состояния" (uptime). Данная метрика относится к надежности сервиса.
? Среднее время между системными инцидентами (Mean Time Between System Incidents – MTBSI): среднее время между двумя последовательными инцидентами. Данная метрика представляет собой сумму двух метрик MTTR и MTBF.
Соотношение метрик MTBF и MTBSI помогает понять, имело ли место много незначительных сбоев или было несколько серьезных нарушений в работе.
В отчеты о доступности сервиса могут быть включены следующие метрики:
? Коэффициент доступности (или недоступности) сервиса, выраженный в метриках MTTR, MTBSI и MTBF;
? общее время работоспособного состояния и время простоя;
? количество сбоев;
? дополнительная информация о сбоях, которые могут привести в настоящее время или в будущем к более высокому Уровню Недоступности Систем, чем было заранее согласовано.
Проблема составления отчетов состоит в том, что представленные выше метрики могут не восприниматься заказчиком. Поэтому отчеты о доступности сервиса должны составляться с точки зрения заказчика. Отчет в первую очередь должен давать информацию о доступности сервиса для наиболее важных бизнес-функций и о доступности данных (т. е. давать бизнес-представления), а не о доступности технических ИТ-компонентов. Отчеты должны быть написаны на понятном заказчику языке.
14.4.7. Разработка Плана Обеспечения Доступности
Одним из основных результатов процесса является План Доступности
. Это долгосрочный План Обеспечения Доступности Сервиса на несколько последующих лет, он не является Планом Внедрения Процесса Управления Доступностью.
План – это живой документ. В начале он должен дать описание текущей ситуации, а затем в него можно включать рекомендации и конкретные виды работ по улучшению существующих услуг, а также предложения по вводу новых услуг и их обслуживанию. Для составления полного и точного плана необходимо взаимодействие с такими Процессами, как Управление Уровнем Сервиса, Управление Непрерывностью ИТ-сервиса, Управление Финансами ИТ-сервиса, а также с Управлением Разработкой Приложений (напрямую или через Процесс Управления Изменениями).
14.4.8. Инструментальные средства
Для достижения эффективности Процесс Управления Доступностью должен использовать ряд инструментальных средств следующего назначения:
? определение времени простоя;
? фиксация исторической информации;
? создание отчетов;
? статистический анализ;
? анализ воздействия.
Процесс Управления Доступностью берет информацию из записей Процесса Управления инцидентами, Базы Данных CMDB и из Базы Данных Процесса Управления Мощностями (CL). Эта информация может храниться в специальной Базе Данных Процесса Управления Доступностью.
14.4.9. Методы и методики
В настоящее время существует широкий спектр методов и методик Управления Доступностью, которые помогают в проведении планирования, улучшения доступности и в составлении отчетов. Наиболее важные из них приведены ниже.
Анализ влияния отказа компонентов (CFIA)
Данный метод предполагает использование матрицы доступности стратегических компонентов и их ролей в каждой услуге. При разработке такой матрицы очень полезной может оказаться база данных CMDB.
Пример матрицы CFIA на рис. 14.4 показывает, что Конфигурационные Единицы, которые для многих услуг помечены символом "X", являются важными элементами ИТ-инфраструктуры (анализ по горизонтали) и что услуги, часто отмечаемые символом "X", являются комплексными и подвержены сбоям (анализ по вертикали). Этот метод также можно применять для изучения степени зависимости от сторонних организаций (усовершенствованный метод CFIA).
Конфигурационная единица
|
Услуга А
|
Услуга Б
|
PC № 1 |
B |
B |
PC № 2 |
|
B |
Кабель № 1 |
B |
B |
Кабель № 2 |
|
B |
Разъем № 1 |
X |
X |
Разъем № 2 |
|
X |
Сегмент сети Ethernet |
X |
X |
Маршрутизатор |
X |
X |
Канал глобальной сети (WAN) |
X |
X |
Маршрутизатор |
X |
X |
Сегмент |
X |
X |
Сетевой информационный центр |
A |
A |
Сервер |
B |
B |
Системное программное обеспечение |
B |
B |
Приложения |
B |
B |
База данных |
X |
X |
X – сбой/дефект означает, что услуга недоступна
А – безотказная конфигурация
В – безотказная конфигурация, с переключением
" " – нет воздействия
Рис. 14.4. Матрица CFIA (источник: OGC)
Анализ дерева неисправностей
(FTA)
Анализ дерева неисправностей используется для определения цепочки событий, приводящих к сбою ИТ-сервиса. Для каждой услуги изображается отдельное дерево с использованием символов Буля. Дерево анализируется снизу вверх. Метод FTA выделяет следующие события:
? Основные события: входы на схеме (обозначены кружочками), такие как отключение электропитания и ошибки операторов. Эти события не исследуются.
? Результирующие события: узловая точка на схеме, появившаяся в результате объединения двух более ранних событий.
? Условные события: события, которые происходят только при определенных условиях, таких как отказ кондиционера.
? Запускающее событие: события, которые приводят к возникновению других событий, такие как автоматическое отключение, вызванное сигналом источника бесперебойного питания.
Рис. 14.5. Анализ дерева дефектов/сбоев (источник: OGC)
События можно объединять с логическими операциями, такими как:
? операция AND (И): результирующее событие произойдет, если будут присутствовать все входы одновременно;
? операция OR (ИЛИ): результирующее событие произойдет, если будет иметь место один или несколько входов;
? операция XOR (Исключающее ИЛИ): результирующее событие произойдет, если будет иметь место только один вход/причина;
? операция Inhibit (Запрет): результирующее событие произойдет, если не будут выполнены входные условия.
Метод Анализа и Управления Рисками
(CRAMM)
Данный метод рассматривался в главе, посвященной Управлению Непрерывностью ИТ-сервиса.
Расчеты доступности сервиса
Описанные выше метрики можно использовать при заключении соглашений о доступности сервиса с заказчиками. Эти договоренности входят составной частью в Соглашения об Уровне Сервиса. Приведенная ниже формула помогает определить, отвечает ли достигнутый Уровень Доступности согласованным требованиям:
Рис. 14.6. Формула доступности (источник: OGC)
Достигнутое время работоспособности системы равно разнице между согласованным временем работоспособности и случившемся временем простоя. Например: если была достигнута договоренность о 98% доступности сервиса в рабочие дни с 7.00 до 19.00 и в течение это периода был двухчасовой отказ сервиса, то достигнутое время работоспособности (процент доступности) будет равен:
(5x12- 2)/(5х 12) х 100%= 96,7%
Анализ простоев системы
(SOA)
Данный метод можно использовать для выяснения причин сбоев, изучения эффективности ИТ-организации и ее процессов, а также для представления и реализации предложений по усовершенствованию сервиса.
Характеристики метода SOA:
? широкая сфера действия: он не ограничивается инфраструктурой и охватывает также процессы, процедуры и аспекты корпоративной культуры;
? рассмотрение вопросов с точки зрения заказчика;
? совместная реализация метода представителями заказчика и ИТ-организации (команда метода SOA).
К числу преимуществ данного метода относятся эффективность подхода, прямая связь между заказчиком и поставщиком и более широкая область для предложений по улучшению сервиса.
Пост технического наблюдения
(ТОР)
Данный метод заключается в наблюдении специальной командой ИТ-специалистов одного выбранного аспекта доступности. Его можно использовать в тех случаях, когда обычные средства не обеспечивают достаточной поддержки. Метод ТОР позволяет объединить знания проектировщиков и руководителей систем.
Основным достоинством данного метода является рациональный, эффективный и неформальный подход, который быстро дает результат.
14.5. Контроль процесса
14.5.1. Составление отчетов
Составление отчетов о доступности сервиса для заказчика обсуждалось выше. Для целей контроля процесса можно использовать следующие метрики:
? время обнаружения;
? время реагирования;
? время ремонта;
? время восстановления;
? оценка успешности использования соответствующих методов (CFIA, CRAMM, SOA);
? степень реализации процесса: услуги, Соглашения об Уровне Сервиса и группы заказчиков, попадающие под действия Соглашения об Уровне Сервиса.
Некоторые метрики можно задать для каждой услуги, команды или области инфраструктуры (сети, вычислительного центра и рабочей станции).
14.5.2. Критические факторы успеха и ключевые показатели эффективности
Критическими факторами успеха Процесса Управления Доступностью сервиса являются:
? наличие у бизнеса четко определенных целей и пожеланий в отношении доступности сервиса;
? налаженный Процесс Управления Уровнем Сервиса для обеспечения формализации соглашений;
? одинаковое понимание сторонами понятий доступности и простоя;
? понимание как бизнесом, так и ИТ-организацией преимуществ Управления Доступностью.
Об эффективности и рациональности Процесса Управления Доступностью свидетельствуют такие показатели эффективности, как:
? доступность сервиса в процентном выражении (время работоспособности) в проекции услуг или групп пользователей;
? продолжительность простоев;
? частота возникновения простоев.
14.5.3. Функции и роли
В организации может быть назначена роль Руководителя Процесса Управления Доступностью для того, чтобы планировать и поддерживать процесс. Задача Руководителя процесса состоит в следующем:
? определение (формирование) процесса и его разработка в организации;
? обеспечение разработки ИТ-сервисов, при которой достигнутые Уровни Сервиса (в Плане Доступности, Надежности, Обслуживания и Способности к Восстановлению) будут соответствовать согласованным уровням;
? составление отчетов;
? оптимизация доступности ИТ-инфраструктуры с целью обеспечения рентабельного улучшения сервиса, предоставляемого бизнесу.
14.6. Проблемы и затраты
14.6.1. Проблемы
Большинство проблем данного процесса связано с организационными вопросами. Среди возможных проблем могут быть следующие:
? руководство распределяет ответственность за доступность сервисов по нескольким направлениям – между линейными руководителями, руководителями процессов. Каждый руководитель отвечает за свое направление, что приводит к отсутствию общей координации;
? ИТ-руководство не понимает той добавочной стоимости, которую дают Процессы Управления Инцидентами, Проблемами и Изменениями;
? существующий Уровень Доступности считается достаточным;
? отсутствует понимание необходимости назначения одного руководителя, несущего ответственность за процесс;
? у руководителя процесса нет достаточных полномочий.
Даже если имеется достаточная поддержка со стороны руководства, проблемы все равно могут возникать по следующим причинам:
? недооценка необходимых ресурсов;
? недостаток эффективных инструментальных средств измерения и составления отчетов;
? недостаточный Уровень Зрелости других процессов, таких как Управление Уровнем Сервиса, Управление Конфигурациями и Управление Проблемами.
Эти проблемы решаемы при должной поддержке со стороны ИТ-руководства, опытном руководителе процесса, несущего за него полную ответственность, при наличии необходимых инструментальных средств, быстром и эффективном разрешении имеющихся проблем.
При нерациональном использовании Процесса Управления Доступностью могут возникнуть следующие проблемы:
? трудности при определении соответствующих стандартов доступности;
? трудности в руководстве и координации внешних и внутренних поставщиков;
? трудности при определении и сравнении стоимости доступности и недоступности;
? если стандарты доступности не учитывались на этапе проектирования, то последующие модификации, выполняемые с целью достижения соответствия стандартам, могут оказаться очень дорогостоящими;
? несоответствие стандартам доступности может привести к невозможности достижения поставленных бизнес-целей;
? может понизиться Уровень Удовлетворенности Заказчика.
Другой потенциальной проблемой является нацеленность на сверхвысокую доступность сервиса. В этом случае резко возросшие затраты не будут окупаться полученными преимуществами. Все же всегда имеется вероятность возникновения простоя. Процесс Управления Доступностью играет важную роль в разрешении таких нежелательных ситуаций.
14.6.2. Затраты
Затраты на процесс состоят из:
? затрат на внедрение процесса;
? затрат на персонал;
? затрат на устройства;
? затрат на инструментальные средства измерения и составления отчетов.
Для улучшения показателей доступности необходимо уже на ранних этапах определить необходимый Уровень Инвестиции в этот процесс. Всегда должен выполняться анализ рентабельности, так как обычно улучшение доступности связано с ростом затрат. Найти оптимальное решение этой проблемы — важная задача Процесса Управления Доступностью. Как показывает опыт, оптимальное решение можно найти, используя разумные ресурсы без крупных дополнительных инвестиций.
При обсуждении стоимости и преимуществ внедрения процесса следует руководствоваться тем, какими могли бы быть затраты, если полностью игнорировать Процесс Управления Доступностью и оказаться в ситуации, когда не будут выполнены согласованные требования по сервиса.
Такая ситуация может иметь следующие последствия для:
? снижение производительности;
? уменьшение оборота бизнеса и прибыли;
? затраты на восстановление;
? возможные претензии третьих сторон и т. д.
Перечисленные ниже аспекты трудно представить в количественном выражении, тем не менее они очень важны:
? потеря престижа и заказчиков;
? потеря репутации и доверия;
? потеря мотивации персонала и удовлетворенности работой.
Процесс Управления Доступностью может помочь ИТ-организации избежать этих потерь и достичь поставленных целей путем предоставления заказчикам необходимых услуг по приемлемой и обоснованной цене.
Глава 15 Управление Информационной Безопасностью
15.1. Введение
Существование многих бизнес-процессов невозможно без информационного обеспечения. Фактически все больше и больше бизнес-процессов состоят исключительно из одной или нескольких информационных систем. Управление Информационной Безопасностью – важный вид деятельности, целью которого является контроль процессов обеспечения информацией и предотвращение ее несанкционированного использования.
В течение многих лет проблемы Управления Информационной Безопасностью в значительной степени игнорировались. Ситуация меняется. Безопасность сейчас считается одной из главных проблем менеджмента на предстоящие годы. Интерес к этому предмету повышается из-за растущего использования сети Интернет и особенно электронной коммерции. Все больше видов бизнеса открывают электронные шлюзы к своей деятельности. Это вызывает опасность постороннего вмешательства и поднимает некоторые важные для бизнеса вопросы. Какие риски мы хотим контролировать и какие меры мы должны предпринять сейчас и в течение следующего бюджетного цикла? Руководство высшего уровня должно принимать решения, а это возможно только при глубоком анализе рисков. Этот анализ должен предоставить входную информацию для Процесса Управления Информационной Безопасностью, необходимую для определения требований безопасности.
Требования бизнеса к информационной безопасности оказывают воздействие на поставщиков ИТ-услуг и должны быть заложены в Соглашениях об Уровне Сервиса. Задачей Процесса Управления Информационной Безопасностью является постоянное обеспечение безопасности услуг на согласованном с заказчиком уровне. Безопасность в настоящее время является важнейшим показателем качества менеджмента.
Процесс Управления Информационной Безопасностью способствует интеграции аспектов безопасности в ИТ-организацию с точки зрения поставщика услуг. Сборник практических рекомендаций по Управлению Информационной Безопасностью (BS 7799) дает руководство для разработки, введения и оценки мер безопасности.
15.1.1. Основные понятия
Процесс Управления Информационной Безопасностью входит в сферу компетенции общей информационной безопасности, задачей которой является обеспечение сохранности информации. Сохранность означает защищенность от известных рисков и, по возможности, уклонение от неизвестных рисков. Инструментом обеспечения этого является безопасность. Целью является защита ценной информации. Ценность информации влияет на необходимый Уровень Конфиденциальности, целостности и доступности.
? Конфиденциальность – защита информации от несанкционированного доступа и использования.
? Целостность – точность, полнота и своевременность информации.
? Доступность – информация должна быть доступна в любой момент предварительного согласованного временного интервала. Это зависит от непрерывности работы систем обработки информации.
Вторичные аспекты включают приватность (конфиденциальность и целостность частной информации), анонимность и проверяемость (возможность проверки правильного использования информации и эффективности мер безопасности).
15.2. Цели процесса
В последние десятилетия почти все виды бизнеса стали более зависимыми от информационных систем. Использование компьютерных сетей также возросло, они не ограничиваются рамками одной организации, они соединяют бизнес-партнеров и обеспечивают связь с внешним миром. Возрастающая сложность ИТ-инфраструктуры означает, что бизнес становится более уязвимым по отношению к техническим сбоям, человеческим ошибкам, злоумышленным действиям, хакерам и взломщикам, компьютерным вирусам и т. д. Эта растущая сложность требует унифицированного управленческого подхода. Процесс Управления Информационной Безопасностью имеет важные связи с другими процессами. Некоторые виды деятельности по обеспечению безопасности осуществляются другими процессами библиотеки ITIL, под контролем Процесса Управления Информационной Безопасностью.
Процесс Управления Информационной Безопасностью имеет две цели:
? выполнение требований безопасности, закрепленных в SLA и других требованиях внешних договоров, законодательных актов и установленных правил;
? обеспечение базового Уровня Безопасности, независимого от внешних требований.
Процесс Управления Информационной Безопасностью необходим для поддержки непрерывного функционирования ИТ-организации. Он также способствует упрощению Управления Информационной Безопасностью в рамках Управления Уровнями Сервиса, так как степень сложности Управления SLA зависит также от их количества.
Входными данными для процесса служат соглашения SLA, определяющие требования безопасности, по возможности, дополненные документами, определяющими политику компании в этой области, а также другие внешние требования. Процесс также получает важную информацию, относящуюся к проблемам безопасности из других процессов, например об инцидентах, связанных с безопасностью. Выходные данные включают информацию о достигнутой реализации соглашений SLA вместе с отчетами о нештатных ситуациях с точки зрения безопасности и регулярные Планы по безопасности. В настоящее время многие организации имеют дело с информационной безопасностью на стратегическом уровне — в информационной политике и информационном планировании, и на операционном уровне, при закупке инструментария и других продуктов обеспечения безопасности. Недостаточно внимания уделяется реальному Управлению Информационной Безопасностью, непрерывному анализу и преобразованию правил работы в технические решения, поддержанию эффективности мер безопасности при изменении требований и среды.