Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Надежность отказоустойчивость и другие характеристики МВС. Требования к компонентам МВС



Важнейшей характеристикой вычислительных систем является надежность, т.е. работа системы без сбоев в определенных условиях в течение определенного времени.

Повышение надежности основано на принципе предотвращения неисправностей путем снижения интенсивности

отказов и сбоев за счет применения электронных схем и компонентов с

высокой и сверхвысокой степенью интеграции, снижения уровня помех,

облегченных режимов работы схем, обеспечения тепловых режимов их

работы, а также за счет совершенствования методов сборки аппаратуры.

Понятие надежности включает не только аппаратные средства, но и

программное обеспечение, которое используется, в частности, для анализа производительности систем и управления конфигурациями.

Единицей измерения надежности является среднее время

наработки на отказ (MTBF — Mean Time Between Failure), иначе — среднее время безотказной работы.

Отказоустойчивость — это способность вычислительной системы продолжать действия, заданные программой, после возникновения неисправностей.

ведение отказоустойчивости требует избыточного аппаратного и программного обеспечения. Направления, связанные с предотвращением неисправностей и с отказоустойчивостью — основные для

обеспечения надежности.

Концепции параллельности и отказоустойчивости вычислительных систем естественным образом связаны между собой, поскольку в обоих случаях требуются дополнительные функциональные компоненты.

Поэтому на параллельных вычислительных систе-

мах достигается как наиболее высокая производительность, так и, во многих случаях, очень высокая надежность.

Решение, обеспечивающее повышенную отказоустойчивость сервера, должно включать:

• компоненты с «горячей» заменой;

• диски, вентиляторы, внешние накопители, устройства PCI, источники питания;

• избыточные источники питания и вентиляторы;

• автоматический перезапуск и восстановление системы;

• память с коррекцией ошибок;

• функции проверки состояния системы;

• превентивное обнаружение и анализ неисправностей;

• средства удаленного администрирования системы.

В систему должны быть заранее установлены или сконфигурированы запасные модули, так что при отказе одного из модулей запасной модуль может заменить его практически немедленно. Отказавший модуль

может ремонтироваться автономно, в то время как система продолжает работать.

Принцип быстрого проявления неисправности обычно реализуется с помощью двух методов: самоконтроля и сравнения. Средства самокон троля предполагают, что при выполнении некоторой операции модуль делает и некоторую дополнительную работу, позволяющую подтвердить правильность полученного состояния.

Метод сравнения основывается на выполнении одной и той же операции двумя или большим числом модулей и сопоставлении результатов компаратором.

Методы самоконтроля были основой построения отказоустойчивых систем в течение многих лет. Они требуют реализации дополнительных схем и времени разработки и, вероятно, будут доминировать в устройствах памяти и устройствах связи благодаря простоте и ясности логики. Однако для сложных устройств обработки данных экономические соображения, связанные с применением стандартных массовых компонентов, навязывают использование методов сравнения.

Требования к компонентам МВС

В результате проведенного анализа, вытекает выбор архитектуры МВС.

Разработчикам систем необходимо, прежде всего, проанализировать

следующие связанные между собой вопросы:

• отношение стоимость/производительность;

• надежность и отказоустойчивость системы;

• масштабируемость системы;

• совместимость программного обеспечения.

Стоимость/производительность. Добиться дополнительного повышения производительности в МВС

сложнее, чем произвести масштабирование внутри узла. Основным барьером является трудность организации эффективных межузловых связей.

Коммуникации, которые существуют между узлами, должны быть устойчивы к задержкам программно поддерживаемой когерентности. Приложения с большим количеством взаимодействующих процессов работают

лучше на основе SMP-узлов, в которых коммуникационные связи более

быстрые. В кластерах, как и в МРР-системах, масштабирование приложений более эффективно при уменьшении объема коммуникаций между процессами, работающими в разных узлах. Это обычно достигается путем разбиения данных

.





Дата публикования: 2015-01-13; Прочитано: 3166 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.006 с)...