Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
Важнейшей характеристикой вычислительных систем является надежность, т.е. работа системы без сбоев в определенных условиях в течение определенного времени.
Повышение надежности основано на принципе предотвращения неисправностей путем снижения интенсивности
отказов и сбоев за счет применения электронных схем и компонентов с
высокой и сверхвысокой степенью интеграции, снижения уровня помех,
облегченных режимов работы схем, обеспечения тепловых режимов их
работы, а также за счет совершенствования методов сборки аппаратуры.
Понятие надежности включает не только аппаратные средства, но и
программное обеспечение, которое используется, в частности, для анализа производительности систем и управления конфигурациями.
Единицей измерения надежности является среднее время
наработки на отказ (MTBF — Mean Time Between Failure), иначе — среднее время безотказной работы.
Отказоустойчивость — это способность вычислительной системы продолжать действия, заданные программой, после возникновения неисправностей.
ведение отказоустойчивости требует избыточного аппаратного и программного обеспечения. Направления, связанные с предотвращением неисправностей и с отказоустойчивостью — основные для
обеспечения надежности.
Концепции параллельности и отказоустойчивости вычислительных систем естественным образом связаны между собой, поскольку в обоих случаях требуются дополнительные функциональные компоненты.
Поэтому на параллельных вычислительных систе-
мах достигается как наиболее высокая производительность, так и, во многих случаях, очень высокая надежность.
Решение, обеспечивающее повышенную отказоустойчивость сервера, должно включать:
• компоненты с «горячей» заменой;
• диски, вентиляторы, внешние накопители, устройства PCI, источники питания;
• избыточные источники питания и вентиляторы;
• автоматический перезапуск и восстановление системы;
• память с коррекцией ошибок;
• функции проверки состояния системы;
• превентивное обнаружение и анализ неисправностей;
• средства удаленного администрирования системы.
В систему должны быть заранее установлены или сконфигурированы запасные модули, так что при отказе одного из модулей запасной модуль может заменить его практически немедленно. Отказавший модуль
может ремонтироваться автономно, в то время как система продолжает работать.
Принцип быстрого проявления неисправности обычно реализуется с помощью двух методов: самоконтроля и сравнения. Средства самокон троля предполагают, что при выполнении некоторой операции модуль делает и некоторую дополнительную работу, позволяющую подтвердить правильность полученного состояния.
Метод сравнения основывается на выполнении одной и той же операции двумя или большим числом модулей и сопоставлении результатов компаратором.
Методы самоконтроля были основой построения отказоустойчивых систем в течение многих лет. Они требуют реализации дополнительных схем и времени разработки и, вероятно, будут доминировать в устройствах памяти и устройствах связи благодаря простоте и ясности логики. Однако для сложных устройств обработки данных экономические соображения, связанные с применением стандартных массовых компонентов, навязывают использование методов сравнения.
Требования к компонентам МВС
В результате проведенного анализа, вытекает выбор архитектуры МВС.
Разработчикам систем необходимо, прежде всего, проанализировать
следующие связанные между собой вопросы:
• отношение стоимость/производительность;
• надежность и отказоустойчивость системы;
• масштабируемость системы;
• совместимость программного обеспечения.
Стоимость/производительность. Добиться дополнительного повышения производительности в МВС
сложнее, чем произвести масштабирование внутри узла. Основным барьером является трудность организации эффективных межузловых связей.
Коммуникации, которые существуют между узлами, должны быть устойчивы к задержкам программно поддерживаемой когерентности. Приложения с большим количеством взаимодействующих процессов работают
лучше на основе SMP-узлов, в которых коммуникационные связи более
быстрые. В кластерах, как и в МРР-системах, масштабирование приложений более эффективно при уменьшении объема коммуникаций между процессами, работающими в разных узлах. Это обычно достигается путем разбиения данных
.
Дата публикования: 2015-01-13; Прочитано: 3166 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!