Главная \| Случайная страница \| Контакты \| Мы поможем в написании вашей работы!

Workload management (Запуск грид-задания)

⇐ Предыдущая 16 17 18 19 202122 23 24 25 Следующая ⇒

The purpose of the Workload Management System (WMS) is to accept user jobs, to assign them to the most appropriate Computing Element, to record their status and retrieve their output. The Resource Broker (RB) is the machine where the WMS services run.

Jobs to be submitted are described using the Job Description Language (JDL), which specifies, for example, which executable to run and its parameters, files to be moved to and from the Worker Node on which the job is run, input Grid files needed, and any requirements on the CE and the Worker Node.

The choice of CE to which the job is sent is made in a process called match-making, which first selects, among all available CEs, those which fulfill the requirements expressed by the user and which are close to specified input Grid files. It then chooses the CE with the highest rank, a quantity derived from the CE status information which expresses the goodness of a CE (typically a function of the numbers of running and queued jobs).

The RB locates the Grid input files specified in the job description using a service called the Data Location Interface (DLI), which provides a generic interface to a file catalogue. In this way, the Resource Broker can talk to file catalogues other than LFC (provided that they have a DLI interface).

The most recent implementation of the WMS from EGEE allows not only the submission of single jobs, but also collections of jobs (possibly with dependencies between them) in a much more efficient way then the old LCG-2 WMS, and has many other new options.

Finally, the Logging and Bookkeeping service (LB) tracks jobs managed by the WMS. It collects events from many WMS components and records the status and history of the job.

21. Феномен Big Data, проблемы хранения и обработки больших объемов данных. Модель программирования MapReduce. Инвертированный индекс. Параллельная обработка и агрегация результатов. Назначение, преимущества и недостатки MapReduce. (http://www.slideshare.net/yandex/mapreduce-12321523# - у кого есть фейсбуки и вконтакте можно отсюда скачать про это хорошую презентацию).

Большие данные (англ. Big Data) в информационных технологиях — серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000-х годов, альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence. В данную серию включают средства массово-параллельной обработки неопределённо структурированных данных, прежде всего, решениями категории NoSQL, алгоритмами MapReduce, программными каркасами и библиотеками проекта Hadoop. В качестве определяющих характеристик для больших данных отмечают «три V»: объём (англ. volume, в смысле величины физического объёма), скорость (англ. velocity в смыслах как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов), многообразие (англ. variety, в смысле возможности одновременной обработки различных типов структурированных и полуструктурированных данных).

Введение термина «большие данные» относят к Клиффорду Линчу, редактору журнала Nature, подготовившему к 3 сентября 2008 года специальный номера журнала с темой «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?»

Коммерческие приложения: десятки миллиардов страниц, сотни терабайт текста, Google MapReduce: 100 TB данных в день (2004), 20 PB (2008), Facebook - петабайты пользовательских данных (15 TB/день), Поведенческие данные пользователей (business intelligence).

Научные приложения. Физика высоких энергий Большой Адронный Коллайдер - 15 PB/год, Large Synoptic Survey Telescope (2015) - 1.28 PB/год, Секвенирование ДНК, European Bioinformatics Institute - 5 PB (2009).

Наблюдения

Мы можем хранить все больше данных, но латентность и пропускная способность жестких дисков не

успевают за ростом объема.

Современные задачи намного превышают возможности одной машины. Требуются кластеры из сотен и тысяч машин.

Стратегия scale out выгоднее стратегии scale up.

Данные нельзя разместить полностью в памяти,приходится обращаться к диску. Последовательные чтение и запись данных при обработке гораздо эффективнее случайного доступа.

Отказы становятся нормой. 10K серверов с MTBF=1000d -> 10 отказов в день. Необходимы автоматическая обработка и восстановление после отказов.

Традиционные HPC-системы имеют отдельные системы хранения данных, а большие объемы данных эффективнее обрабатывать там же, где они хранятся.

Разрабатывать приложения для подобных систем на низком уровне очень сложно. Требуются высокоуровневые модели программирования, скрывающие детали системного уровня. Требуются универсальные среды выполнения, масштабируемые и проверенные на корректность.

Программная модель MapReduce была придумана несколько лет тому назад в компании Google и там же была выполнена первая реализация этой модели на основе распределенной файловой системы той же компании GFS (Google File System). Эта реализация активно используется в программных продуктах самой Google, но является сугубо проприетарной и недоступна для использования вне Google.

⇐ Предыдущая 16 17 18 19 202122 23 24 25 Следующая ⇒

Дата публикования: 2015-01-13; Прочитано: 482 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!

studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.006 с)...