Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал:
https://er.chdtu.edu.ua/handle/ChSTU/6558| Назва: | Дослідження GRID технології в проблемно-орієнтованих системах |
| Автори: | Лукашенко, Валентина Максимівна Павловський, Богдан Геннадійович |
| Дата публікації: | січ-2022 |
| Короткий огляд (реферат): | Мета кваліфікаційної роботи магістра – створити Grid-інфраструктуру для моніторингу повеней за допомогою інтеграції технологій Sensor Web and Grid в додатки для дослідження затоплення територій. Об’єктом дослідження є Grid технології в проблемно-орієнтованих системах. Грід-технології набувають важливого значення – відбувається перехід від тестових випробувань і пробного обслуговування пілотних програм до постійної стійкої роботи по обслуговуванню самих різноманітних прикладних галузей науки і виробництва. У зв'язку з цим перед розробниками нового прикладного ПЗ, перед розробниками грід-ПЗ встають нові масштабні завдання. Масштаб впровадження грід-технологій в значній мірі буде залежати від здатності нових та існуючих додатків бути розгорнутими в цьому середовищі. Тому тенденції в області розробки і реалізації програм є критичними для широкого поширення Grid. До теперішнього часу лише відносно невелике число додатків написані спеціально для грід-систем і лише невелика кількість нинішніх комерційних додатків, які здавалися перспективними для виконання в грід-системах, дійсно розгорнуті в Grid або переведені на Grid. Але в міру зростання практичного інтересу до грід-технологій і до пов'язаних з ним моделям інфраструктур, будуть потрібні і нові елементи планування, моделі розробки та засоби для створення і реалізації призначених для Grid додатків. Запропонований підхід до моделювання та аналізу обчислювальних Grid-хмарних структур заснований на обліку даних їх моніторингу, використовуваних потім для динамічної корекції параметрів моделювання. В силу спільності своєї реалізації розроблена програма моделювання SyMSim може також застосовуватися для вирішення більш широкого класу задач проектування віртуальних центрів обробки і зберігання великих масивів даних. Зокрема програму можна застосовувати для проектування і подальшого розвитку сховищ інформації. У роботі представлена інфраструктуру Grid, яка інтегрує обчислювальні та зберігальні ресурси географічно розподілених організацій: Використання Grid-технологій для домену Спостереження Землі мотивоване необхідністю проводити обчислення в найближчому реальному часі для швидкого реагування на природні катастрофи та управління великими обсягами супутникових даних. Застосування програми спостереження Землі також характеризується складним робочим процесом, який необхідно керувати та контролювати. Досліджено деякі питання щодо інтеграції технологій Grid та Sensor Web. Така інтеграція може забезпечити подвійні переваги: сенсорні мережі можуть вивантажувати важкі операції обробки на Grid та прикладні сенсори на основі Grid можуть надавати передові послуги для інтелектуального зондування, розгортаючи конкретні сценарії. Програми включають: чисельне прогнозування погоди, що є досить інтенсивним для обчислень, повені, що потребують швидкого реагування на надзвичайні ситуації, та оцінка біорізноманіття, що вимагає аналізу та інтеграції великих обсягів даних для отримання кінцевого продукту. |
| URI (Уніфікований ідентифікатор ресурсу): | https://er.chdtu.edu.ua/handle/ChSTU/6558 |
| Розташовується у зібраннях: | 123 Комп’ютерна інженерія (Спеціалізовані комп’ютерні системи) |
Файли цього матеріалу:
| Файл | Опис | Розмір | Формат | |
|---|---|---|---|---|
| М_123_2021_Павловський+.pdf Restricted Access | 2.12 MB | Adobe PDF | Переглянути/Відкрити Запит копії |
Усі матеріали в архіві електронних ресурсів захищено авторським правом, усі права збережено.
Extracted text
МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ
ЧЕРКАСЬКИЙ ДЕРЖАВНИЙ ТЕХНОЛОГІЧНИЙ УНІВЕРСИТЕТ
ФАКУЛЬТЕТ ІНФОРМАЦІЙНИХ ТЕХНОЛОГІЙ І СИСТЕМ
КАФЕДРА РОБОТОТЕХНІКИ ТА СПЕЦІАЛІЗОВАНИХ КОМП’ЮТЕРНИХ
СИСТЕМ
Пояснювальна записка
до кваліфікаційної роботи
освітнього ступеня «магістр»
на тему: ДОСЛІДЖЕННЯ GRID ТЕХНОЛОГІЇ
В ПРОБЛЕМНО-ОРІЄНТОВАНИХ СИСТЕМАХ
Виконав: студент 5 курсу, групи МСКС-2007
спеціальності 123 Комп’ютерна
інженерія
Павловський Б.Г.
(прізвище та ініціали)
Керівник Лукашенко В.М.
(прізвище та ініціали)
Рецензент
(прізвище та ініціали)
Черкаси 2021 року
ЗМІСТ
СПИСОК УМОВНИХ ПОЗНАЧЕНЬ ТА СКОРОЧЕНЬ ........................................ 3
ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ .......................................................... 4
РОЗДІЛ 1. СТАН ПРЕДМЕТУ ДОСЛІДЖЕННЯ ТА ФОРМУЛЮВАННЯ ЗАДАЧ.
КОНЦЕПЦІЯ, КЛАСИФІКАЦІЯ ТА ПРИНЦИП РОБОТИ GRID-СИСТЕМ .. 7
1.1 Концепція та стандартизація GRID систем ................................................... 7
1.2 Архітектура, типи та класифікація компонентів GRID .............................. 11
1.3 Характеристика та сфера застосування GRID ............................................ 15
Висновки…………………………………………………………………………….
РОЗДІЛ 2. МОНІТОРИНГ НАВКОЛИШНЬОГО СЕРЕДОВИЩА ЗА
ДОПОМОГОЮ GRID-СИСТЕМ ....................................................................... 27
2.1 Моніторинг Grid-систем............................................................................... 27
2.2 Взаємодія Grid-систем та способи їх організанії ........................................ 29
Висновки…………………………………………………………………………….
РОЗДІЛ 3. СТВОРЕННЯ ІНФРАСТРУКТУРИ GRID ДЛЯ ДОДАТКІВ
МОНІТОРИНГУ НАВКОЛИШНЬОГО СЕРЕДОВИЩА ................................ 36
3.1 Візуалізація даних у мережевій інфраструктурі ......................................... 36
3.2 Числове моделювання погоди ...................................................................... 39
3.3 Інтеграція сенсорної мережі в системи моніторунгу навколишнього
середовища ................................................................................................... 49
Висновки…………………………………………………………………………….
РОЗДІЛ 4. НАДІЙНІСТЬ У МЕРЕЖЕВИХ ОБЧИСЛЕННЯХ СИСТЕМИ…….57
4.1 Задача забезпечення надійності в Grid системах ........................................ 57
4.2 Надійність Grid ресурсів .............................................................................. 59
4.3 Реплікаціяресурсів Grid ................................................................................ 71
Висновки .................................................................................................................
ВИСНОВКИ ........................................................................................................... 73
СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ ............................................................... 74
3
СПИСОК УМОВНИХ ПОЗНАЧЕНЬ ТА СКОРОЧЕНЬ
• GMA (Grid Monitoring System) – система моніторингу.
• NRT (nearreal-time) – в реальному часі.
• LAI (leaf-area index) – індекс листкової поверхності.
• GEOSS (Global Earth Observation System of Systems) – Глобальна система
спостереження Землі.
• GMES (Global Monitoring for Environment and Security) – Глобальний моніторинг
довкілля та безпеки.
• EDG (European DataGrid project) – європейський проект передачі даних.
• EGEE (Enabling Grids for E-sciencE) – це проект, мета якого побудувати грід-
інфраструктуру, яка зможе використовуватися в численних наукових
дослідженнях в Європі.
• ESA (European Space Agency) – Європейська організація з вивчення та освоєння
космічного простору.
• ESRIN (European Space Research Institute) – Європейський Космічний
Дослідницький Інститут.
• WAG (The Wide Area Grid) –проект “Широка територіальна сітка”.
• WGISS (Working Group on Information Systems and Services) – робоча група з
питань інформаційних систем та послуг.
• CEOS (Committee on Earth Observation Satellites) – Комітет із супутників
спостереження за Землею.
• USGS (United States Geological Survey) – геологічна група США.
• WFS (Web Feature Service) – служба веб-функцій.
• WMS (Web Mapping Service) – служба веб-картографування.
• KML (Keyhole Markup Langugage) – мова розмітки Keyhole.
• WRF (Wheather Research and Forecasting) – чисельна модель прогнозування
погоди.
4
ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ
Актуальність роботи. В даний час глобальні зміни клімату на Землі
зробили моніторинг навколишнього середовища, прогнозування природних та
технологічних катастроф дуже важливим завданням. Основою для вирішення цих
завдань є комплексне використання даних різного характеру: моделювання даних,
вимірювання на місці, а також непрямі спостереження, такі як дані дистанційного
зондування у повітрі та просторі (GEOSS 2005).
Прогнозування різних процесів, що відбуваються в атмосфері, суші, океані
та морі; зможе допомогти інтерпретувати міри та розробляти нові системи
спостереження. Супутникові спостереження мають перевагу в отриманні даних
для великих та важко доступних територій, а також у наданні постійних і
незалежних від людини вимірювань. Багато важливих застосувань, таких як
моніторинг та прогнозування природних катастроф, значною мірою покладаються
на використання даних космічних спостережень. Наприклад, величина повені,
отримана супутником, є дуже важливою для калібрування та валідації
гідравлічних моделей для відновлення після повені. Інформація про ступінь повені
також може використовуватися для оцінки збитків та управління ризиками.
Для оцінки здоров’я рослинності дані оптичного дистанційного
зондування можуть бути використані для отримання біофізичних та біохімічних
змінних, таких як концентрація пігменту, структура листя і т.д.. Таким чином,
вище зазначенні програми вимагають використання високоефективних
обчислень, надійної інфраструктури для ефективного управління та обробки
даних. Ці програми можуть отримати користь від використання Grid та Sensor
Web технологій таким чином: середовище Grid може забезпечити доступ до
високоефективних ресурсів та забезпечити ефективне управління великими
обсягами даних. Sensor Web зможе забезпечити основу для інтеграції різнорідних
датчиків у загальну інформаційну інфраструктуру, тому тема роботи є
актуальною.
Зв’язок роботи з науковими програмами, планами, темами. Напрям
дослідження кваліфікаційної магістрантської роботи пов’язаний з тематикою
5
бюджетною науково-дослідною роботою Черкаського державного
технологічного університету: «Методи, моделі при обробці інтелектуальних,
інформаційних технологій для високоефективних обчислювальних та локальних
підсистем управління в проблемно-орієнтованих системах»
(№ д. р. 0106U004501).
Мета дослідження створити Grid-інфраструктуру для моніторингу
повеней за допомогою інтеграції технологій Sensor Web and Grid в додатки для
дослідження затоплення територій.
Для досягнення поставленої мети необхідно вирішити наступні завдання:
1. Проаналізувати концепції, архітектури, типи, принцип роботи та
організацію ресурсів GRID систем.
2. Дослідити моніторинг навколишнього середовища за допомогою GRID-
систем та порівняти способи взаємодії GRID-систем.
3. Створити мережеву інфраструктуру для моделювання погоди та оцінки
біорізноманіття Землі за допомогою інтеграції сенсорної мережі.
Об’єкт дослідження є Grid технології в проблемно-орієнтованих
системах.
Методи дослідження. Для вирішення поставлених у випускній
кваліфікаційній роботі завдань використовувалися такі методи: теорії
інформаційних технологій для системного аналізу, візуалізації (для відображення
отриманих результатів), теорії множини (для відтворення реляційних моделей),
теорії прийняття рішень у складних умовах, теорії збору, переробки, збереження
інформації та систем управління.
Наукова новизна одержаних результатів полягає в тому, що:
6
Запропоновано децентралізовану модель "екосистеми" прикладних і
загальних мікросервісів-агентів, яка складає основу динамічної розподіленої
архітектури з низькою зв'язністю компонентів. Мікросервіси-агенти взаємодіють
один з одним для вирішення проблем шляхом обміну стандартизованими
повідомленнями на основі бази знань своєї «екосистеми», створюючи динамічні
робочі процеси за запитом користувача. Створено репозиторій обчислювальних
сервісів для моделювання складних систем.
Практичне значення одержаних результатів. Розроблено та
впроваджено метод постановки обчислювальних завдань продуктивності з
використанням технології семантичної веб-технології, що, на відміну від
існуючих підходів, дозволяє сформулювати кінцеву мету обчислень та уточнити
шляхи її досягнення для користувача, який не має навичок програміста.
Апробація результатів дисертації. Основні положення дисертаційної
роботи доповідалися й обговорювалися на всеукраїнської конференції:
– на IV Всеукраїнська науково-практична інтернет-конференція
«Сучасні технології в енергетиці, електромеханіці, системах
управління та машинобудуванні – м. Бахмут, Україна, листопад
25-26, 2021»;
– на засіданні ЕК ЧДТУ РСКС 10 червня 2020р. – Черкаси 2020.
Публікації. Результати дослідження, що подано в випускній
кваліфікаційній магістрантській роботі, опубліковано:
– О.Д. Кедря та ін., Метод визначення кращого скануючого пристрою
лазерного технологічного комплексу, збірник матеріалів СТЕЕСУМ-
2021, оприлюднено на сайті ННППІ УІПА[Електронний ресурс] - С.
27-28 Режим доступу: http://www.nnppi.in.ua/index.php/abit/2-
uncategorised/270-naukovi-konferentsiyi
7
РОЗДІЛ 1. СТАН ПРЕДМЕТУ ДОСЛІДЖЕННЯ
ТАФОРМУЛЮВАННЯ ЗАДАЧ. КОНЦЕПЦІЯ, КЛАСИФІКАЦІЯ ТА
ПРИНЦИП РОБОТИ GRID-СИСТЕМ
1.1 Концепція та стандартизація GRID систем
Концепція Grid запровадила нову модель організації різних форм
обробки даних, запропонувавши технології віддаленого доступу до різних
типів ресурсів незважаючи на місце їх розташування у глобальному
мережевому середовищі. За допомогою Grid, з’являється можливість
виконувати на одному або кількох чужих комп’ютерах програмні коди, стають
повсюдно доступними сховища даних із структурованою (БД) і
неструктурованою (файли) інформацією, програмно керовані пристрої і різні
джерела даних (датчики).
GRID - географічно розподілена інфраструктура, яка об'єднує безліч
ресурсів різних типів (процесори, довготривала і оперативна пам'ять, сховища
і бази даних, мережі), доступ до яких користувач може отримати з будь-якої
точки, незалежно від місця їх розташування. GRID передбачає колективний
розділяється режим доступу до ресурсів і до пов'язаних з ними послуг в рамках
глобально розподілених віртуальних організацій, що складаються з
підприємств і окремих фахівців, які разом використовують спільні ресурси. У
кожної віртуальної організації є своя власна політика поведінки її учасників,
які повинні дотримуватися встановлених правил. Віртуальна організація може
утворюватися динамічно і мати обмежений час існування.
Grid являє собою інфраструктуру, яка складається і знаходиться в різних
місцях ресурсів, що з'єднують їх телекомунікаційні (мережеві ресурси) і
взаємоузгодженого по всій інфраструктурі Grid сполучного (middleware)
програмного забезпечення, що підтримує виконання дистанційних операцій, а
також виконує функції управління операційним середовищем і контролю.
Потенціал технологій GRID вже зараз оцінюється дуже високо: він має
стратегічний характер, і в близькій перспективі повинен стати
обчислювальним інструментарієм для розвитку високих технологій в різних
8
сферах людської діяльності, подібно до того, як подібним інструментарієм
стали персональний комп'ютер та інтернет. Такі високі оцінки можна пояснити
здатністю GRID на основі безпечного і надійного віддаленого доступу до
ресурсів глобально розподіленої інфраструктури вирішити дві проблеми:
• створення розподілених обчислювальних систем надвисокої пропускної
здатності з серійно випускається устаткування (показники продуктивності:
агрегована потужність більше 1 терафлоп, обсяг оброблюваних даних
більше 1 петабайта в рік) при одночасному підвищенні ефективності (до
100%) наявного парку обчислювальної техніки шляхом надання в грід
тимчасово простоюють ресурсів;
• створення широкомасштабних систем моніторингу, управління,
комплексного аналізу і обслуговування з глобально розподіленими
джерелами даних, здатних підтримувати життєдіяльність державних
структур, організацій і корпорацій.
Рис 1.1. Система моніторингу сітки
9
GMA – це архітектура для систем моніторингу сітки, запропонована
групою Grid Global Forum (GGF). На рис. 1.1 показані три компоненти, які
містять GMA та взаємодію між ними. Споживач – це послуга, що представляє
суб’єкт господарювання (наприклад користувач, підсистема сітки, додаток), який
вимагає моніторингу певних ресурсів. Виробник – це послуга, якапредставля
сенсор і публікує події. Служба каталогів зберігає інформацію про виробників та
споживачів. Як Споживачі, так і Виробники можуть зареєструватися в Каталозі.
У той час як виробники реєструють інформацію про спостережувані події,
споживаччі можуть реєструвати події, що представляють інтерес. Таким же
чином обидва ці компоненти використовують Каталог для виявлення
зацікавлених організацій.
Існує три типи взаємодії між споживачами та виробниками:
• публікація/підписка;
• запит/відповідь;
• повідомлення.
У разі публікації/підписки. Споживач підписується на цікаві події до
скасування підписки. Цей тип взаємодії може бути ініційований як Споживачем
такі Виробником. У випадку запиту/відповіді, Споживач використовує
інформацію з Каталогу, щоб витягувати інформацію з Виробника. В останньому
випадку виробник ініціює дію, надаючи споживачам дані.
Розглянемо області застосування GRID: спочатку GRID - технології
призначалися для вирішення складних наукових, виробничих та інженерних
задач, які неможливо вирішити в розумні терміни на окремих обчислювальних
установках. Однак тепер сфера застосування технологій GRID не обмежується
тільки цими типами задач. У міру свого розвитку GRID проникає в промисловість
і бізнес, великі підприємства створюють GRID для вирішення власних
виробничих завдань. Таким чином, GRID претендує на роль універсальної
інфраструктури для обробки даних, в якій функціонує безліч служб (Grid
Services), які дозволяють вирішувати не тільки конкретні прикладні завдання, а й
пропонують сервісні послуги: пошук необхідних ресурсів, збір інформації про
10
стан ресурсів, зберігання і доставка даних. Застосування GRID може дати нову
якість рішення наступних класів задач:
• масова обробка потоків даних великого обсягу;
• багатопараметричний аналіз даних;
• моделювання на віддалених суперкомп'ютерах;
• реалістична візуалізація великих наборів даних;
• складні бізнес-додатки з великими об'ємами обчислень.
Технології GRID включають в себе лише найбільш загальні і універсальні
аспекти, однакові для будь-якої системи (архітектура, протоколи, інтерфейси,
сервіси). Використовуючи ці технології і наповнюючи їх конкретним змістом,
можна реалізувати ту чи іншу GRID-інфраструктуру, призначену для вирішення
того чи іншого класу прикладних задач. GRID-технології не є технологіями
паралельних обчислень. Їх основне завдання - координація використання
ресурсів. Хоча в рамках конкретної GRID-системи можливо організувати
паралельні обчислення з використанням існуючих паралельних технологій.
Для побудови повністю функціональної грід-системи необхідне програмне
забезпечення проміжного рівня (middleware), побудоване на базі існуючих
інструментальних засобів і надає високорівневі сервіси завданням і
користувачам. Створення та реалізація GRID-технологій є складною науковою і
практичною проблемою, що знаходиться на стику великої кількості науково-
технічних напрямків.
GRID-технології вже активно застосовуються як державними
організаціями управління, оборони, сфери комунальних послуг, так і приватними
компаніями, наприклад, фінансовими і енергетичними. Область застосування
GRID зараз охоплює ядерну фізику, захист навколишнього середовища,
передбачення погоди і моделювання кліматичних змін, чисельне моделювання в
машино- та авіабудуванні, біологічне моделювання, фармацевтику.
Стандартизація GRID систем
11
GRID - система, як правило, складається з різних програмно-апаратних
платформ, містить комп'ютери різного рівня і класу, такі як домашні персональні
робочі станції, промислові ЕОМ, суперкомп'ютери, які утворюють гетерогенну
середу. Труднощами, що виникають при побудові систем подібного класу,
зазвичай називають управління ресурсами, забезпечення захисту інформації та
самого процесу обчислень, а також стандартизацію обчислювальної платформи і
"незалежність" виконуваного програмного забезпечення (ПЗ). Під
"незалежністю" мається на увазі межплатформенная переносимість ПЗ, що не
прив'язаного до типу операційної системи і апаратного пристрою комп'ютера,
обмін даними через загальновідомі і стандартизовані протоколи.
Для досягнення цих якостей середовище повинне будуватися на основі
принципів відкритих систем. Принцип відкритих систем полягає у використанні
стандартних інтерфейсів. Але, від декларації необхідності реалізації принципів
відкритих систем середовище ще не набуває властивостей відкритості. Для цього
необхідно застосувати ряд задекларованих етапів, щоб система могла вважатися
відкритою. Даний процес називається технологією відкритих систем.
1.2 Архітектура, типи та класифікація компонентів GRID
Для детального опису архітектури, потрібно визначитися з деякими
базовими поняттями, які використовуються в класифікації грід-мереж.
• ресурс - ресурсом в грід-мережі є будь-які типи обчислювальних
потужностей, систем хранений, мережевих ресурсів. Ресурси можуть бути
розділені на фізичні і логічні. До фізичних відносяться: ОЗУ, ПЗУ, ЦП і т.д.
Прикладами логічних ресурсів є розподілена файлова система,
комп'ютерний кластер, розподілений пул комп'ютерів;
• Мережевий протокол - набір правил, що визначає обмін повідомленнями.
Розрізняють мережеві протоколи нижнього (Ethernet і ін.), Середнього (IP,
TCP і ін.) І високого рівня (FTP, HTTP і ін.);
• Синтаксис - правила, що визначають порядок і форму запису інформації в
повідомленні;
12
• Сервіс - це сутність, яка надає специфічну функціональність;
• Інтерфейс прикладних програм - набір сервісів, що надає прикладній
програмі доступ до ресурсів через операційну систему.
Грід-система повинна володіти набором сервісів, що забезпечують
контрольоване виконання програм авторизованих користувачів. Грід-мережу
динамічна - з плином часу можуть бути змінені як кількість обчислювальних
вузлів, так і їх конфігурація.
Для нормального функціонування грід-система повинна забезпечувати:
• ідентифікацію виконуваної програми;
• авторизацію користувача;
• пошук ресурсів;
• опис ресурсів;
• резервування ресурсів;
• доступ до віддалених даними;
• розподіл ресурсів;
• виявлення неполадок.
Кількість і характер сервісів, що забезпечують роботу грід-системи, може
змінюватися в залежності від призначення даної обчислювальної середовища.
Архітектура GRID
Архітектуру GRID можна представити у вигляді ієрархічної структури
(рис. 2.1), що складається з декількох рівнів. На кожному з представлених рівнів
працюють певні сервіси, які взаємодіють за допомогою стандартних протоколів.
13
Рис. 1.2. Багаторівнева архітектура GRID
Базовий (Fabric) рівень - надає ресурси, спільний доступ до яких
забезпечується через протоколи GRID.
Для доступу до обчислювальних ресурсів потрібні:
• механізми для запуску програми і моніторингу її виконання;
• механізми для визначення апаратних і програмних характеристик, а також
визначення поточний стан (наприклад, робочої завантаження).
Для доступу до мережевих ресурсів потрібні:
• механізм контролю над ресурсами, призначеними для мережевого трафіка
(пріоритети, резервування);
• функції визначення характеристик і завантаження мережі.
Зв'язуючий (Connectivity) рівень - визначає комунікаційні протоколи, необхідні
для проведення транзакцій і ідентифікації користувачів. Комунікаційні протоколи
дозволяють здійснювати обмін даними між ресурсами рівня Fabric.
Ресурсний (Resource) рівень - рівень, який базується на протоколах рівня
Connectivity. Він визначає протоколи для:
• здійснення безпечного обміну інформацією;
14
• ініціалізації, моніторингу та проведення спільних операцій на
індивідуальних ресурсах;
• створення облікових записів користувачів;
• проведення обліку утилізованого часу для кожного з користувачів.
Для доступу та контролю над локальними ресурсами сервіси рівня
Resource використовують функції рівня Fabric. За своїм призначенням протоколи
рівня Resource можуть бути згруповані в два класи:
• інформаційні протоколи, які використовуються для огляду інформації про
структуру і станах ресурсу (наприклад, конфігурації, поточне
завантаження та ін.);
• протоколи менеджменту, які використовуються для надання доступу до
спільних ресурсів. Зокрема, вони забезпечують виконання функцій
резервування і контролю відповідності ресурсів запитуваною вимогам.
Колективний (Collective) рівень - групує протоколи і сервіси, які не
пов'язані з будь-яким конкретним ресурсом, а забезпечують колективне взаємодія
ресурсів один з одним.
Прикладний (Application) рівень - включає в себе додаток користувача, яке
функціонує в середовищі GRID.
Взаємодія прикладної програми з сервісами різних рівнів здійснюється
через функції інтерфейсу прикладних програм цих сервісів.
Типи GRID систем з точки зору вирішуваних задач
Аналізуючи існуючі проекти з побудови грід-систем можна зробити
висновок про трьох напрямках розвитку грід-технології:
1. обчислювальний грід (Computational Grid),
2. грід для інтенсивної обробки даних (Data Grid),
3. семантичний Грід для оперування даними з різних баз даних
(Semantic Grid).
15
Метою першого напряму є досягнення максимальної швидкості обчислень
за рахунок глобального розподілу цих обчислень між тисячами комп'ютерів, а
також, можливо, серверами і суперкомпьютерами.
Метою другого напрямку є обробка величезних обсягів даних щодо
нескладними програмами. Тому обчислювальні ресурси грід-інфраструктури в
цьому випадку найчастіше представляють собою кластери персональних
комп'ютерів. А от доставка даних для обробки і пересилання результатів в цьому
випадку представляють собою досить складну задачу. Одним з найбільших
проектів, метою якого є створення грід-системи для обробки наукових даних, є
проект EGEE (Enabling Grids for E-sciencE). Про нього будемо докладно
розглядати в розділі 3 і в контексті цієї розповіді обговоримо питання, пов'язані
зі зберіганням і (своєчасної) передачею великих обсягів даних. GRID-системи
третього напряму - семантичні - надають інфраструктуру для виконання
обчислювальних задач на основі розподіленого мета-інформаційного оточення,
що дозволяє оперувати даними з різнотипних баз, різних форматів,
представляючи результат у форматі, визначеному додатком. У цьому огляді ми
зовсім будемо засуджувати цей тип грід-систем і просто відсилаємо читача до
відповідному веб-сайту.
1.3 Характеристика та сфера застосування GRID
GRID характеризується наступними властивостями:
• масштаби обчислювального ресурсу (обсяг ОЗУ, кількість ядер ЦП), які зазвичай
перевершують ресурси окремого комп'ютера, обчислювального комплексу або
суперкомп'ютера;
• гетерогенність середовища;
• географічний розподіл ІТТ;
• об'єднання ресурсів, які не можуть управлятися централізовано;
• використання стандартних, відкритих, загальнодоступних протоколів і
інтерфейсів;
• забезпечення інформаційної безпеки.
16
В літературі і технічної документації під терміном "GRID-система" мається
на увазі розподілена обчислювальна система, що має перераховані вище
властивості. За своїм призначенням GRID прийнято ділити на обчислювальні
системи (computational GRID) і системи, орієнтовані на зберігання великих
масивів інформації (data GRID).
До завдань, в рішеннях яких може використовуватися GRID, відносяться:
• складне моделювання;
• спільна візуалізація великих наборів наукових даних;
• розподілена обробка з метою аналізу даних;
• зв'язування наукового інструментарію з віддаленими комп'ютерами і
архівами даних.
Найбільш ефективним є застосування GRID для вирішення наступних
завдань:
• розподілені високопродуктивні обчислення, рішення дуже великих
завдань, що вимагають велику кількість процесорних ресурсів, пам'яті і т.
Д .;
• «високопоточних» обчислення, що дозволяють організувати ефективне
використання ресурсів для невеликих завдань, утилізуючи тимчасово
простоюють комп'ютерні ресурси;
• проведення великих разових розрахунків;
• обчислення із залученням великих обсягів розподілених даних, наприклад,
в метеорології, астрономії, фізики високих енергій;
• колективні обчислення: одночасна робота декількох взаємодіючих завдань
різних користувачів.
Аналіз світового досвіду побудови GRID-систем показує, що в їх основі
лежать рішення наступних проблем:
• об'єднання різнорідних систем;
• спільне використання даних;
• динамічне виділення ресурсів;
• переносимість додатків в гетерогенної середовищі;
17
• забезпечення інформаційної безпеки.
GRID-технології активно застосовуються як державними організаціями
управління, оборони, так і приватними компаніями, зокрема, фінансовими і
енергетичними. Область застосування GRID зараз охоплює ядерну фізику, захист
навколишнього середовища, передбачення погоди і моделювання кліматичних
змін, чисельне моделювання в авіабудуванні, біологічне моделювання,
фармацевтику.
Завдяки GRID-технології і "добровільним обчислень" були створені такі
проекти, як:
• SETI @ home - пошук позаземного життя шляхом аналізу конкретних
радіочастот, що виходять з космосу;
• QMC @ home - вивчення структури і реакційної здатності молекул з
використанням квантової хімії і методів Монте-Карло;
• Milkyway @ home - створення високоточної тривимірної моделі галактики
Чумацький Шлях;
• Gerasim @ home - дослідження в області дискретної математики;
• World Community Grid - дослідження захворювань і всесвітніх
гуманітарних проблем;
• Virtual Prairie - розробка екологічних рекомендацій з проектування прерій
з найкращим потенціалом для очищення води;
• Optima @ home - рішення широкомасштабних оптимізаційних задач.
На даний момент, згідно з джерелом distributedcomputing.info налічується
понад 300 активних світових грід-проектів, і це, не рахуючи регіональних
активностей.
Загальні завдання GRID. Завдання гріда і завдання суперкомп'ютерів
(схожість і відмінність)
Концепція гріда виникла не як абстрактна ідея, а як відповідь на що
з'являються потреби в великих інформаційно-обчислювальних ресурсах,
динамічно що виділяються для вирішення громіздких задач, в науковій,
18
індустріальної, адміністративної та комерційної областях діяльності. Створення
грід-середовища має на увазі розподіл обчислювальних ресурсів по
територіально розділеним сайтам, на яких встановлено спеціалізоване програмне
забезпечення для того, щоб розподіляти завдання по сайтам і приймати їх там,
повертати результати користувачеві, контролювати права користувачів на доступ
до тих чи інших ресурсів, здійснювати моніторинг ресурсів, і так далі.
Загальнодоступні ресурси на основі сайту можуть включати обчислювальні
вузли і / або вузли зберігання і передачі даних, власне дані, прикладне програмне
забезпечення.
Обчислювальні ресурси надають користувачеві грід-системи (точніше
кажучи, задачі користувача) процесорні потужності. Обчислювальними
ресурсами можуть бути як кластери, так і окремі робочі станції. Попри всю
різноманітність архітектур будь-яка обчислювальна система може розглядатися
як потенційний обчислювальний ресурс грід-системи. Необхідною умовою для
цього є наявність ППО, реалізуючого стандартний зовнішній інтерфейс з
ресурсом і дозволяє зробити ресурс доступним для грід-системи. Основною
характеристикою обчислювального ресурсу є продуктивність.
Ресурси зберігання також використовують ППО, що реалізує уніфікований
інтерфейс управління і передачі даних. Як і в випадку обчислювальних ресурсів,
фізична архітектура ресурсу пам'яті не принципова для грід-системи, будь то
жорсткий диск на робочої станції або система масового зберігання даних на сотні
терабайт. Основний характеристикою ресурсів зберігання даних є їх обсяг. В
даний час характерний обсяг ресурсів зберігання вимірюється в терабайт (Тб).
Інформаційні ресурси і каталоги є особливим видом ресурсів зберігання
даних. Вони служать для зберігання і надання метаданих та інформації про інших
ресурсах грід-системи. Інформаційні ресурси дозволяють структуровано
зберігати величезний обсяг інформації про поточний стан грід-системи і
ефективно виконувати завдання пошуку ресурсів.
Мережевий ресурс є сполучною ланкою між розподіленими ресурсами
грід-системи. Основною характеристикою мережевого ресурсу є швидкість
передачі даних.
19
Найважливішим є міждисциплінарний характер робіт з розвитку грід-
обчислень - вже сьогодні ці технології застосовуються в самих різних прикладних
областях. В світі виникли сотні грід-форумів і проектів - в фізиці високих енергій,
космофізика, мікробіології, екології, метеорології, різних інженерних додатках
(наприклад, в літакобудуванні).
Основними загальними завданнями гріда є:
• створення з серійно випускається устаткування широкомасштабних
розподілених обчислювальних систем і систем обробки, комплексного
аналізу і моніторингу даних, джерела яких також можуть бути (глобально)
розподілені;
• підвищення ефективності обчислювальної техніки шляхом надання в грід
тимчасово простоюють ресурсів.
Пріоритет тієї чи іншої спільної справи, яка вирішується за допомогою
гріда, визначається типом гріда і характером прикладних областей, в яких він
використовується.
Не всі проблеми найкраще вирішувати, використовуючи розподілені
кластери на основі грід-технологій. Суперкомп'ютери незамінні для деяких
наукових проблем, типу складання прогнозу погоди, коли безліч процесорів
повинні часто спілкуватися один з одним. Очевидно, що таке часте спілкування
неможливо забезпечить для географічно розподілених і, можливо, апаратно-
неоднорідних ресурсів в грід-середовищі. Іншими словами, грід не дуже
підходить для паралельних обчислень з інтенсивним межпроцессорной обміном.
Пояснимо трохи більш докладно чому не слід змішувати грід-технологію з
технологією паралельних обчислень. Основними перешкодами для здійснення
нетривіальних паралельних обчислень в грід-середовищі є нестабільність,
погана передбачуваність часу відгуку на запит. Причому це пов'язано не тільки з
тим, що в комп'ютерних мережах інформаційні пакети проходять через безліч
мережевих пристроїв, але і з відмінностями в протоколах зв'язку
використовуваних у "зовнішніх" комп'ютерних мережах і для межпроцессорного
обміну всередині суперкомп'ютерів. Це не дозволяє ефективно організувати
20
паралельні обчислення з інтенсивним обміном інформацією між процесорами,
які виконують окремі підзадачі, в грід-середовищі.
Грід-технологія не є технологією паралельних обчислень, вона призначена
для віддаленого запуску окремих завдань на територіально розподілені ресурси.
Тому якщо громіздка задача, яку необхідно вирішити, може бути розбита на
велика кількість маленьких, незалежних (не обмінюється ніякими даними)
частин, - грід-технологія виявляється особливо ефективним і відносно дешевим
рішенням. Навпаки, суперкомп'ютери виявляються для таких обчислень
невиправдано дорогим і неефективним рішенням. В англомовній літературі такі
прикладні задачі іноді називають «bag-of-tasks» - сумка / мішок завдань:
обчислення для кожної виконуються незалежно, а в кінці користувач або
програмне забезпечення просто повинні з'єднати результати індивідуальних
обчислень. Типовими прикладами таких задач є:
• масова обробка потоків експериментальних даних великого обсягу
(Найчастіше досліджуване явище можна розділити на окремі незалежні
події і експериментальні результати по кожній події обробляти незалежно
від інших);
• візуалізація великих наборів даних (окремі області візуального уявлення
обробляються незалежно, а потім «склеюються»);
• складні бізнес-додатки з великими об'ємами обчислень (розбиття на
частини залежить від конкретного характеру завдання).
Заради справедливості, треба відзначити, що ПЗ проміжного шару нового
покоління для грід-систем (зокрема, gLite, про який ми ще будемо говорити
нижче) дозволяє управляти деякими класом нетривіальних паралельних
обчислень - таких, залежність подзадач в яких може бути представлена
спрямованим графом без циклів (Direct Acyclic Graph (DAG). Але наскільки
ефективною на практиці виявиться ця можливість - ще належить з'ясувати.
Необхідно відзначити, що існують гібридні проекти, метою яких є
досягнення максимальної швидкості обчислень за рахунок глобального
розподілу цих обчислень між суперкомп'ютерами - при цьому грід координує
21
використання різних суперкомп'ютерів, а власне нетривіальне розпаралелювання
відбувається всередині суперкомп'ютера. Проект DEISA може служити
прикладом цього напрямку, в якому робиться спроба об'єднання
суперкомп'ютерних центрів.
Ресурси GRID та способи їх організації
Інструментарій Globus Toolkit, починаючи з версії GT2 став фактичним
стандартом для Grid, визнаним як науковим співтовариством, так і провідними
компаніями комп'ютерної індустрії. Завдяки тому, що GT з самого початку
зберігав і зараз зберігає статус відкритого програмного забезпечення, на сьогодні
накопичено значний досвід його застосування у великих проектах.
Використовуючи інструментальні засоби GT, різними колективами були
розроблені додаткові служби: реплікації файлів, авторизації, диспетчеризації
завдань і ін.
Стандарт OGSA (Open Grid Services Architecture - набір специфікацій і
стандартів, що дозволяють об'єднати переваги метакомп'ютингу і Web-служби)
визначає служби як абстрактні об'єкти, але не містить ніяких розпоряджень про
спосіб їх реалізації. У OGSA не будуть розглядатися питання програмної моделі
служб і виконавчої середовища їх функціонування, що, звичайно, має сенс, тому
що робить стандарт незалежним від реалізаційної платформи. Наприклад, в GT3,
Grid-служби реалізуються в компонентних середовищах - контейнерах,
розроблених для Web-служб. Так, на платформі J2EE (Java 2 Enterprise Edition -
набір специфікацій і відповідної документації для мови Java, яка описує
архітектуру серверної платформи для задач середніх і великих підприємств)
застосовуються різні типи контейнерів: EJB (Enterprise JavaBeans - специфікація
технології написання і підтримки серверних компонентів), JSP (JavaServer Pages
- технологія, що дозволяє веб-розробникам легко створювати вміст, який має як
статичні, так і динамічні компоненти), сервлети і аплети. Роль контейнерів -
розміщення служб, забезпечення життєвого циклу, підтримка безпеки.
22
Якщо цих функцій контейнера досить для Web-служб, то для Grid- служб
потрібна більша - спосіб реалізації цих служб повинен забезпечувати
віртуалізацію ресурсів:
• на багато користувачів обслуговування, динамічно адаптується до
мінливої навантаженні шляхом породження безлічі екземплярів служб;
• автоматичний розподіл ресурсів між екземплярами служб, що
виконують обробку потоку запитів.
Цим вимогам відповідає середовище виконання Grid-служб, в якій є пул
ресурсів з єдиним управлінням, здійснюваним Менеджером ресурсів. Запит, що
надходить на інтерфейс служби перетворюється в форму завдання для
Менеджера ресурсів і передається йому за його інтерфейсів. Основні функції
Менеджера ресурсів - виділення ресурсів під завдання і підтримка їх виконання
(рис. 1.3).
Рис. 1.3. Віртуалізація через Менеджер ресурсів
На жаль, в сучасних дослідженнях питань організації ресурсів і управління
службами приділяється відносно мало уваги. Більший інтерес викликають
програмні продукти комерційних компаній, що займаються розробкою засобів
для підтримки внутрішньої інформаційної інфраструктури підприємств,
інфраструктури, що зв'язує підприємства, і інфраструктури провайдерів послуг.
Якщо дослідницький напрямок зосереджено, головним чином, на моделях і
23
протоколах забезпечення інтероперабельності просторово розподіленого
програмного забезпечення, то основні досягнення комерційних систем лежать
якраз в сфері управління ресурсами.
Провідні компанії IBM, Sun, Hewlett-Packard, Avaki, Oracle та ін.
зацікавлені в розвитку просторово розподіленого комп'ютингу і пов'язують
перспективи з переходом на протоколи і архітектуру Grid. Загальні положення
способу побудови Grid на базі локальних систем управління розподіленими
ресурсами виглядають наступним чином:
• Модель служб OGSA розглядається як майбутній стандарт всієї
інформаційної індустрії, на основі якого будуть будуватися просторово
розподілені додатки. Через посередництво служб додатки отримують
уніфікований дистанційний доступ до ресурсів віртуальної організації;
• Зв’язуюче програмне забезпечення Grid "склеює", тобто робить
доступними споживачам, географічно рознесені, що належать різним
адміністративним доменами ресурсні пули;
• Засоби Grid для збору і зберігання інформації постачають віртуальну
організацію метаданими про ресурси, послуги та умови їх надання. OGSA
специфицирует формат описів і спосіб зберігання метаданих в реєстрах. На
основі метаданих працюють різні комунальні служби Grid;
• Захист у віртуальній організації базується на стандарті інфраструктури
безпеки (PKI (Public Key Infrastructure - Інфраструктура Відкритих
Ключів)) Grid, заснованому на сертифікатах X.509. PKI підтримує
одноразову реєстрацію користувачів, яка діє повсюдно, на всіх ресурсних
пулах.
Існує два способи організації ресурсів Grid. Перший спосіб, що відповідає
напрямку GT, можна назвати дворівневим (або горизонтально інтегрованих). У
цій формі Grid утворюється з сукупності комплексних, тобто містять безліч
комп'ютерів, вузлів. Ресурси окремого вузла знаходяться в автономному
адміністративному домені, пов'язані локальною мережею і зазвичай
24
управляються системою пакетної обробки, яка грає роль локального Менеджера
ресурсу.
Вузол включається в Grid через одну одну або кілька машин-шлюзів, на які
встановлюються Grid- служби, і, таким чином ресурси вузла стають доступні
повсюдно. На такий спосіб організації ресурсів орієнтований GT, в якому
підтримано інтерфейси з системою пакетної обраброткі PBS, Condor, LSF, SGE і
ін. Віртуалізація ресурсів відбувається на рівні окремих вузлів Grid, а для
забезпечення прозорого доступу до всіх ресурсів віртуальної організації
передбачається наявність служби глобальної віртуалізації - брокера або
диспетчера (рис. 1.4). Описаний підхід чудовий для віртуальних організацій, які
спираються на розвинену локальну інфраструктуру ресурсів. Однак,
представляють інтерес і ситуації, коли власники ресурсів не використовують
систему пакетних обробок, не можуть дозволити собі ускладнювати
обслуговування наявного парку машин або створюють Grid на короткий час для
спільного виконання конкретного проекту. В таких обставинах більш
відповідним може бути другий спосіб організації Grid - однорівневий (або з
вертикальною інтеграцією).
Рис. 1.4. Дворівневий горизонтально інтегрований Grid
25
У однорівневої архітектури, ресурси - просторово розподілені комп'ютери,
вони інтегруються через керуючий центр, який, з одного боку, являє собою точку
доступу до всіх ресурсів, а, з іншого боку, виконує функції Менеджера ресурсів,
керуючи ресурсами і віртуалізіруя їх (рис. 1.5).
Рис. 1.5. Однорівневий вертикально інтегрований Grid
Однорівневий підхід був запропонований в проектах SETI @ home і
Distributed.net, але використовувався для вирішення досить спеціальні порівняно
з цілями Grid завдання - організації рахунку окремих додатків на глобально
розподілених ресурсах. Подальший розвиток однорівневого підходу, що
виразилося в появі засобів запуску та управління завданнями в продуктах
декількох компаній: Entropia, DataSynapse, United Devices, Parabon Computing,
дало можливість його застосування в Grid, тобто в середовищі для виконання
безлічі різних додатків. Слід зазначити, що до недавнього часу існувала
перешкода для створення Grid за допомогою комерційних систем: оскільки всі
вони спиралися на приватні протоколи дистанційної взаємодії, область дії
побудованих на їх базі інфраструктур була обмежена корпоративним рівнем. Але
становище змінюється - перераховані вище компанії в тій чи іншій мірі брали
участь в розробці протоколів для архітектури OGSA і мають конкретні плани
переходу від приватних рішень до стандартів, що затверджується Grid-
товариствром.
26
Проводячи далі порівняння дворівневого і однорівневого підходу ми
виходимо з того, що в перспективі вони можуть стати взаємодоповнюючими
способами побудови Grid, а деякі технології, розроблені під певний контекст,
представляють цінність і в більш широкому плані.
Висновки. Грід-технології набувають важливого значення – відбувається
перехід від тестових випробувань і пробного обслуговування пілотних програм
до постійної стійкої роботи по обслуговуванню самих різноманітних прикладних
галузей науки і виробництва. У зв'язку з цим перед розробниками нового
прикладного ПЗ, перед розробниками грід-ПЗ встають нові масштабні завдання.
Масштаб впровадження грід-технологій в значній мірі буде залежати від
здатності нових та існуючих додатків бути розгорнутими в цьому середовищі.
27
РОЗДІЛ 2. МОНІТОРИНГ НАВКОЛИШНЬОГО СЕРЕДОВИЩА ЗА
ДОПОМОГОЮ GRID-СИСТЕМ
Термін “моніторинг” позначає спостереження, аналіз і оцінку стану
навколишнього середовища, її змін під впливом господарської діяльності
людини, а також прогнозування цих змін. Відчуваючи на собі результати
руйнівної дії води, вітру, землетрусів, снігових лавин і т.п., людина здавна
реалізувала елементи моніторингу, накопичуючи досвід прогнозування погоди і
стихійних лих. Такого роду знання завжди були і зараз залишаються необхідними
для того, щоб по можливості знизити шкоду, яку завдають людському суспільству
несприятливі природні явища і, що особливо важливо, зменшити ризик людських
втрат. Наслідки більшості стихійних лих необхідно оцінювати з усіх боків.
2.1 Моніторинг Grid-систем
Система моніторингу - це набір програмних і апаратних засобів для аналізу
і контролю стану деякої системи розподілених обчислень. Система моніторингу
та обліку ресурсів (Смуров) призначена для відстежування поточного стану
ресурсів, завдань та інших об'єктів в грід-системі. Інструментарій Смуров
повинен надавати як статичну, так і динамічну інформацію про функціонування
грід-системи (Прикладом динамічної інформації може служити стан черг на
обчислювальному кластері), а також результати статистичного аналізу цієї
інформації. Серед основних завдань моніторингу відзначимо наступні:
• Безперервне спостереження за станом грід-сервісів, як базових (загальних
для всієї інфраструктури), так і відносяться до окремих ресурсним
центрам;
• Отримання інформації про обчислювальних ресурсах (кількість
обчислювальних вузлів для виконання завдань, архітектура
обчислювальної
• системи, встановлене програмне забезпечення, доступні спеціалізовані
програмні пакети) і про спожитий процессорном часу;
28
• Моніторинг виконання обчислювальних завдань і завдань (запуск, зміна
стану, коди завершення і т.п.).
Серед параметрів моніторингу, необхідних для подальшого моделювання,
найбільш суттєвими були наступні:
1) число завдань (симуляція, аналіз, реконструкція) надходять в систему;
2) обсяг використовуваної оперативної пам'яті;
3) використане процесорний час;
4) число оброблених подій;
5) час розрахунку завдання;
6) обсяг використовуваних даних.
Підходи GRID технологій в системах моніторингу наколишнього
середовища
Сучасний етап розвитку систем екологічного моніторингу, прогнозування
надзвичайних ситуацій і підтримки прийняття відповідних рішень
характеризується глобалізацією поставлених завдань і активним використанням
даних з різних джерел, в першу чергу, супутникових спостережень. На вирішення
таких завдань не тільки в регіональному, а й у глобальному масштабі, спрямовані
міжнародні численні програми та ініціативи, в тому числі GEOSS, GMES та
INSPIRE. Ці ініціативи передбачають спільне використання продуктів і
інтеграцію регіональних і національних систем супутникового моніторингу.
Детально розглядаються проблеми, що виникають в процесі інтеграції
регіональних або національних систем, а також обговорюються можливі шляхи
їх вирішення. Переважна більшість запропонованих технологій реально
апробовано в процесі створення міжнародних систем супутникового
моніторингу.
Можливі два підходи до інтеграції систем моніторингу: на рівні обміну
даними результатами їх обробки або на рівні спільного вирішення завдань в
рамках загальної інфраструктури.
Перший підхід набагато простіше в реалізації. Для його втілення потрібно
лише забезпечення стандартизованого обміну даними між додатками, наявність
29
загального каталогу метаданих, а також загального програмного і Web-
інтерфейсу. Такий підхід застосовується для інтеграції систем супутникового
моніторингу Інституту космічних досліджень РАН-НКАР (ІКД РАН-НКАР). Для
обміну даними між системами використовується протокол WMS (Web Map
Service - протокол для видачі географічно прив'язаних зображень через Інтернет),
а для реалізації інтерфейсу користувача - шаблон на основі товстого клієнта і
програмне забезпечення OpenLayers (бібліотека, написана на JavaScript,
призначена для створення карт на основі програмного інтерфейсу).
Другий спосіб інтеграції систем складніший. Він передбачає взаємодію
систем на рівні вирішення завдань, тобто запуску додатків, використання
окремих моделей, спільного використання даних і обчислювальних ресурсів.
Крім стандартизації обміну даними і наявності загального програмного і
призначеного для користувача інтерфейсу в даному випадку необхідно
забезпечити єдину політику безпеки, загальну обчислювальну інфраструктуру,
узгоджене планування та запуск завдань і моніторинг навантаження. Такий
підхід можливий тільки на основі інтеграції окремих Grid-систем. Одержану в
результаті інфраструктуру можна назвати Inter-Grid.
2.2 Взаємодія Grid-систем та способи їх організанії
При розробці засобів взаємодії Grid-платформ можна виділити ряд завдань,
вирішення яких дозволить реалізувати більшу частину функціональності Grid і
використовувати високорівневі сервіси на її основі з урахуванням специфіки
завдань супутникового моніторингу. До таких завдань відносяться наступні:
• забезпечення взаємодії між системами безпеки різних Grid-платформ;
• реалізація надійної передачі файлів між Grid-платформами;
• реалізації високорівневого доступу до геопросторової інформації.
• запуск і моніторинг завдань на ресурсах різних Grid-платформ;
Для відпрацювання методів вирішення вищезазначених завдань було
вибрано дві Grid-платформи: Globus Toolkit v4 і gLite v3, оскільки абсолютна
більшість інших платформ в тій чи іншій мірі сумісні з ними.
30
Передумови створення inter-grid системи
На даний момент в світі склалася ситуація, коли різні космічні агентства і
організації, пов'язані з обробкою космічних даних або вже мають власні Grid-
інфраструктури (ESA, NASA, JAXA), або знаходяться в процесі їх створення
(CNES, CNR, НАНУ і НКАУ) . Активний розвиток Grid-підходу в даній області
обумовлено распределенностью космічних даних. Крім того, створення
продуктів обробки космічних даних різних рівнів вимагає використання моделей,
інтеграції даних різної природи, і, як наслідок, великих обчислювальних
потужностей, які не завжди є в кожній окремій організації. Створення
інтегрованої Grid-інфраструктури підтримується міжнародними ініціативами, в
тому числі GEOSS і GMES. В області наук про Землю Grid-технології активно
розвиваються в рамках EGEE (наприклад, проект DEGREE).
Ініційовано ряд міжнародних проектів, спрямованих на об'єднання Grid-
систем. Серед них особливо слід відзначити проект Wide Area Grid (WAG),
підтримуваний робочою групою з інформаційних систем і сервісів WGISS
комітету CEOS, в якому активну участь бере і НКАР. У Росії є всі передумови для
активного включення в міжнародні інтеграційні процеси. НКАР і РАН ініціювали
спільну програму по створенню російського сегмента GEOSS (система GEO-
UА), інформаційна інфраструктура якої базується на Grid-технології
(UASpaceGrid). Розробляється система супутникового моніторингу ґрунтується
на міжнародних стандартах обміну даними і допускає природне об'єднання з
іншими стандартизованими системами. Організовано Grid-сегмент Російська
академії наук (РАН), що включає в себе обчислювальні потужності провідних
інститутів РАН. З 2007 року Росія є членом програми EGEE (Enabling Grids for E-
sciencE - проект, спрямований на побудову Grid-інфраструктури), що полегшує
взаємодію з іншими Grid-системами в рамках цієї програми.
В рамках реалізації проекту WAG і декількох інших міжнародних проектів
в даний час створюється Inter-Grid інфраструктура, яка об'єднує ресурси Росії,
Китаю і ESA для спільного вирішення задач моніторингу повеней на основі
інтеграції даних різної природи і засвоєння їх в моделі. Таким чином, набуває
31
актуальності завдання вивчення і розробки засобів взаємодії Grid-систем, які в
загальному випадку можуть бути реалізованими на різних платформах (Globus
Toolkit, gLite, NorduGrid, Alien і т.д.).
Високорівневий доступ до геопросторової інформації
Головною особливістю Grid-систем супутникового моніторингу є
використання геопросторових даних різного просторового і тимчасового
дозволу. Тому високорівнева доступ до геопросторової інформації є
найважливішим завданням InterGrid систем, пов'язаних з обробкою супутникової
інформації. Ця функціональність може бути реалізована двома способами: через
сервіс WSRF і через контейнер OGSA-DAI.
Схема організації доступу до геопросторових даних через WSRF-сервіс
показана на рис. 2.1. Перевагою такого підходу є простота реалізації базової
функціональності (при наявності відповідних програмних засобів), а також
простота розгортання. Однак додаткова функціональність - забезпечення
безпеки, індексування і т.п., повинна бути реалізована вручну. Крім того, при
такому підході складно забезпечити інтеграцію з іншим програмним
забезпеченням обробки даних.
Рис. 2.1. Доступ до геопросторових даних через сервіс WSRF
32
Другий підхід до організації доступу до високорівневих даних полягає у
використанні контейнера OGSA-DAI (рис. 2.2).
Рис. 2.2. Доступ до геопросторових даних через контейнер OGSA-DAI
При такому підході більша частина проблем реалізації вирішується
автоматично, в тому числі питання безпеки, надійність передачі даних між
різними джерелами. Інфра-структура є легко розширюється і сумісної з іншими
системами обробки даних.
Однак обробка виключень і додавання нових функцій вимагає набагато
більше серйозних зусиль і навичок, ніж при першому підході. Крім того, в цьому
випадку потрібна установка додаткового програмного забезпечення.
Приклад інтеграції систем моніторингу на рівні даних
Перший підхід до інтеграції систем супутникового моніторингу - на рівні
обміну даними - апробований при відпрацюванні взаємодії між системами ІКД
РАН-НКАР і ІКД РАН на прикладі задач сільськогосподарського моніторингу.
Російська система супутникового моніторингу на основі стандарту WMS надає
33
дані по індексу NDVI, пожеж і базову картографію. В домені ІКД РАН-НКАР
розгорнуті два WMS-сервера, що забезпечують продукти MODIS (точкові дані) і
модельні дані по температурі земної поверхні, а також векторні дані наземних
метеоізмереній. Інтеграція даних реалізована за шаблоном товстого клієнта на
базі програмного забезпечення OpenLayers з підтримкою технології AJAX
(Asynchronous Javascript and XML - асинхронний JavaScript і XML).
Обрана технологія має наступні переваги: забезпечується підтримка
кешування шарів і оптимізація завантаження зображень за рахунок розбиття всієї
інформації, що відображається області на фрагменти. Це істотно прискорює
відображення результатів в інтерфейсі користувача. Додатковою перевагою такої
технології є відсутність необхідності в серверній частині, що забезпечує
інтеграцію даних. Вся функціональність по вилученню даних з різних систем
моніторингу та їх відображення реалізується на стороні клієнта. Приклад
інтерфейсу користувача показаний на рис. 2.3, де одночасно відображені дані
обох систем моніторингу: карта індексів NDVI з системи моніторингу ІКД РАН і
карта температури земної поверхні з сервера ІКД РАН-НКАР.
Рис. 2.3. Інтерфейс користувача на основі OpenLayers
34
Другий підхід до інтеграції систем моніторингу - на рівні виконання
завдань, був використаний для розробки сегмента Wide Area Grid (WAG) в рамках
проекту, ініційованого Французьким космічним агентством CNES, а також
проекту CAT-1. Метою цих проектів є створення Grid-системи, що об'єднує
ресурси космічних агентств та інших організацій різних країн з метою вирішення
завдань GEOSS і GMES. У розробленому сегменті об'єднані ресурси ІКД РАН-
НКАР, Remote Sensing Ground Station of CAS (China). Поточний стан Inter-Grid
системи, що розробляється в рамках проектів CAT-1 і WAG, представлено на
рис. 2.4. Всі організації, представлені в даному сегменті, надають свої
обчислювальні ресурси для вирішення завдань моніторингу навколишнього
середовища в контексті GEOSS. На даний момент в Inter-Grid системі
виконуються такі завдання: моделювання метеорологічних параметрів за
допомогою чисельної моделі WRF; картографування площ затоплених територій
за допомогою радіолокаційних даних супутників ERS і ENVISAT.
35
Рис. 2.4. Поточна InterGrid інфраструктура, що створюється в рамках проектів
CAT-1 і WAG
Крім обчислювальних ресурсів, ІКД РАН-НКАР і RSGS of CAS мають
можливість представляти в сегменті свої архіви даних, які можуть бути
використані для вирішення тематичних завдань.
Висновки. Запропонований підхід до моделювання та аналізу
обчислювальних Grid-хмарних структур заснований на обліку даних їх
моніторингу, використовуваних потім для динамічної корекції параметрів
моделювання. В силу спільності своєї реалізації розроблена програма
моделювання SyMSim може також застосовуватися для вирішення більш
широкого класу задач проектування віртуальних центрів обробки і зберігання
великих масивів даних. Зокрема програму можна застосовувати для
проектування і подальшого розвитку сховищ інформації.
36
РОЗДІЛ 3. СТВОРЕННЯ ІНФРАСТРУКТУРИ GRID ДЛЯ ДОДАТКІВ
МОНІТОРИНГУ НАВКОЛИШНЬОГО СЕРЕДОВИЩА
3.1 Візуалізація даних у мережевій інфраструктурі
В даний час інфраструктура Grid інтегрує ресурси декількох географічно
розподілених організацій, зокрема:
• Інститут космічних досліджень NASU-NSAU (Україна) вилучив вузли
обчислювальної та накопичувальної інформації на основі програмного
забезпечення Globus Toolkit 4 та gLite 3, доступу до георосторових
даних та порталу Grid.
• Інститут кібернетики NASU (Україна) з розгорнутими
обчислювальними та накопичувальними вузлами на основі проміжного
програмного забезпечення Globus Toolkit 4 та доступу до
обчислювальних ресурсів ( приблизно 500 процесорів).
• RSGS-CAS (Китай) з розгорнутими обчислювальними вузлами на
основі проміжного програмного забезпечення gLite 3 та доступу до
геопросторових даних (приблизно 16 процесорів).
У всіх випадках Послуга Розподілу та Управління Ресурсами Grid (ПРУР)
використовується для виконання завдань на ресурсах.
Варто також зазначити, що супутникові дані поширюються через
середовище Grid. Наприклад, дані ENVISAT WSM (які використовуються в
програмі повені) зберігаються в постійному архіві ESA і регулярно
завантажуються на українську територію. Потім вони зберігаються в архіві
Інституту космічних досліджень, який доступний через Сітку. Дані MODIS із
супутників Terra та Aqua, які використовуються у програмах цінювання повеней,
урожаю та біорізноманіття, регулярно завантажуються з архівів USGS та
зберігаються в Інституті космічних досліджень NASU-NSAU та Інституті
кібернетики NASU.
37
Рис. 3.1. Портал інфраструктури Grid
Доступ до ресурсів середовища Grid організовується через портал Grid
високого рівня, який було розгорнуто за допомогою структури Grid Sphere. Через
портал користувачі можуть отримати доступ до потрібних супутникових даних
та подати завдання на обчислювальні ресурси Grid для обробки супутникових
знімків (рис. 3.1).
Щоб візуалізувати результати обробки даних у середовищі Grid,
використовують OpenLayers з відкритим кодом та UNM Map-server v5.
OpenLayers – це бібліотека JavaScript для побудови багатих веб-географічних
додатків без залежностей від сервера. OpenLayers реалізує стандартні галузеві
методи доступу до геграфічних даних, такі як протокол веб-картографічного
обслуговування консорціуму Open Geospatial (WMS) та Web Feature Service
(WFS).
Mapserver – середовище розробки з відкритим кодом для створення
просторово включених Інтернет-додатків. Він підтримує стандарт WMS OGC
(Open Geospatial Consortium), який дозволяє створювати та відображати
зареєстровані та накладені на карту перегляди інформації, що надходять
одночасно з декількох віддалених та неоднорідних джерел.
38
Створивши сервіси WMS для продуктів, отриманих із спостереження Землі,
використовують іх у рамках OpenLayers та в Google Earth, генеруючи відповідні
файли мови розмітки Keyhole (KML).
Рис. 3.2. Архітектура Grid інфраструктури
Робочий процес кроків обробки даних в Grid (таких як перетворення,
калібрування, орторектифікація, класифікація) контролюється двигуном Karajan.
Існуюча архітектура Сітки показана на рис. 3.2.
Програми, розгорнуті в інфраструктурі Grid
У цьому розділі детально описуємо програми спостереження Землі, які
були розгорнуті в інфраструктурі Grid. Зокрема, ми зосереджуємось на
застосуванні моделювання погоди, моніторингу повеней та оцінці
біорізноманіття. Мотивація вибору цих заявок випливає з наступного:
1. Числове прогнозування погоди належить до обчислювальних інтенсивних
застосувань.
39
2. Прикладні програми потребують швидкого реагування на надзвичайні
ситуації, а отже, потребують надійної інфраструктури для управління та
обробки даних.
3. Оцінка біорізноманіття належить до інтенсивного застосування даних, де
аналізуються різні дані та продукти для отримання кінцевого продукту.
3.2 Числове моделювання погоди
Прогнозування метеорологічних параметрів є однією з основних служб для
ряду застосувань (наприклад повеней, посухи, сільського господарства). Наразі
ведеться модель досліджень погоди та прогнозування погоди в оперативному
режимі для території України. Метеорологічний прогноз формується кожні 6
годин з просторовою роздільною здатність 10 км. Діапазон прогнозу – 72 години.
Розміри горизонтальної сітки становлять 200х200 точок з 31 вертикальним
рівнем. Ми використовуємо Прогноз NCEP GFS (Глобальна система
прогнозування) в якості граничних умов для моделі WRF. Ці дані доступні в
Інтернеті через National Operational Model Archive (Національну систему архівів)
та Distribution System (розповсюдження операційної моделі).
Робочий процес запуску моделі WRF складається з наступних єтапів
(рис. 3.3):
Збір даних. Для запуску моделі WRF необхідно отримати граничні та
початкові умови для території України. Ці дані можна отримати з прогнозування
моделі GFS. Щоб отримати необхідні дані, був розроблений спеціальний
сценарій. Цей сценарій завантажує глобальний прогноз кожні 6 годин. Для
зменшення обсягу даних, сценарій використовує спеціальний веб-сервіс, здатний
вибирати підмножини даних GFS для території України. Отримані дані
передаються в підсистему зберігання даних і позначаються як необроблені (тобто
вони повинні оброблятися за моделлю WRF). Після завантаження даних GFS
сценарій, Karajan ініціалізує робочий процес для попередньої обробки даних,
запуску WRF та післяобробки даних.
40
Рис. 3.3. Діаграма послідовностей UML для програми NWP
Етап попередньої обробки даних призначений для перетворення
завантажених даних у формат, який використовується для запуску моделі WRF.
Дані GFS подаються у форматі GRIB в географічному прогнозі.Ці дані
перетворюються у внутрішній формат WRF командою grib_prep.exe,
перекручуються в конформну проекцію ламберта (за допомогою команди
hinterp.exe) і вертикально інтерполюються за допомогою команди vinderp.exe.
(Команди grib_prep.exe і vinterp.exe – це інструменти з пакету WRFStandard
Initialization(SI)). Результати цих перетворень зберігаються у форматі netCDF.
41
Після цього команда real.exe використовується для створення початкових та
граничних умов запуску моделі WRF. Вхідні дані в команду real.exe – це дані GFS
у форматі netCDF та файл конфігурації WRF (namelist.input).
Крок обробки даних полягає у виконанні запуску WRF за допомогою
команди wrf.exe. Вихід команди – прогноз метеорологічних параметрів. Це
найбільш обчислювальне завдання. Після запуску моделі WRF виконується етап
посляобробки. Для заданих параметрів погоди та для кожного прогнозного кадру
(3 години) створюється графічне зображення (у форматі PNG) просторового
розподілу. Додатково створюються спеціальні файли, що містять
геореференційну інформацію ( файли з розширенням *.wld). результати етапу
післяобробки використовуються для візуалізації прогнозу WRF за допомогою
сервісу карти. Ця послуга доступна через http://dos.ikd.kiev.ua та надає
користувачам анімацію прогнозу погоди (рис. 3.4).
Рис. 3.4. Приклад прогнозу температури землі за допомогою моделі WRF
42
Служба надає інструменти для вибору прогнозного часу, рамки прогнозу
(до 72 годин вперед) та параметрів погоди, які відображатимуться. Вибрата
користувачем інформація упаковується в запит на сервер. Для обробки запиту всі
необхідні дані (у форматі PNG та WLD формати) отримуються з підсистеми
зберігання та передаються на сервер відображення з метою створення карт. Карти
додатково обробляються сценарієм для створення анімації GIF. Нарешті, ця
анімація представлена на стороні користувача.
Також була протестована працездатність незалежної моделі WRF від
кількості обчислювальних вузлів. Для тестових цілей використовували
паралелізовану версію 2.2 WRF моделі з доменною моделлю, ідентичною тій, що
застосовується непрацюючим сервісом NWP (200x200x31 сітки з
горизонтальним просторовим дозволом 10 км). Паралелізація була реалізована за
допомогою інтерфейсу передачі повідомлень (MPI). Спостерігалось майже
лінійне зростання продуктивності в межах збільшення кількості обчислювальних
вузлів. Наприклад, вісім вузлів кластера SCIT-3 інфраструктури Grid забезпечили
підвищення продуктивності в 7,09 разів (теоретично 8,0 можливо) в порівнянні з
одиничним вузлом. Використання 64 вузлів підвищує продуктивність у 43,6 разів
(рис. 3.5).
Рис. 3.5. Результати роботи WRF на кластері SCIT-3: час обчислення ітерації
forone (зліва); прискорення моделі WRF щодо кількох вузлів (справа)
43
Одинична ітерація пробігу моделі відповідає прогнозу метеорологічних
параметрів 1 хвилини. Отже, прогноз на три дні вимагає завершення 4320
ітерацій. Тобто, при використанні одного вузла кластера SCIT-3 інфраструктури
Grid потрібно 5,15 годин для забезпечення прогнозу на 3 дні. У свою чергу,
використання 64 вузлів кластеру дозволяє скоротити загальний час обчислення
до 7,1 звилин.
Видобуток затоплення від зображень SAR
Однією з найважливіших проблем, пов’язаних з моніторингом повені, є
видобуток ступеня повені, оскільки визначити територію повені за допомогою
польових спостережень недоцільно. Було розроблено нейромережевий підхів до
видобутку ступеня затоплення із зображень синтетичної діафрагми (SAR). На
відміну від оптичних даних, вимірювання SAR від космосу не залежать від
денних та погодних умов і можуть надати цінну інформацію для моніторингу
повеней. Нейронна мережа використовується для сегментації та класифікації
зображення на два класи: “Вода” та “Без води”. В якості входів у нейронну
мережу використовують рухоме вікно інтенсивності пік селів зображення. Було
застосовано підхід для визначення ступеня затоплення за зображеннями SAR,
отриманими трьома датчиками: ERS-2/SAR (просторовий дозвіл 8 метрів) для
річки Тиса, Україна; ENVISAT/ASAR WSM (режим широкої ширини, просторова
роздільна здатність 150 метрів) та RADARSAT-1 (просторова розподільна
здатність 25 метрів) для річки Хуайе, Китай. Розмір вікна залежав від режиму
супутникового інструментального зображення. Нарпиклад, для даних,
отриманих Envisat/ASAR в режимі широкої ширини, використовували вікно 3x3;
для даних ERS-2 та RADARSAT-1 використовували вікно 7х7. Коефіцієнти
класифікації для незалежних наборів даних тестування склали 85,40%, 98,52% та
95,99% для даних ERS-2/SAR,ENVISAT/ASAR WSM та RADARSAT-1
відповідно.
Розроблена паралельна версія методу і розгорнуто його в інфраструктурі
Grid. Паралелізація обробки зображень виконується наступним чином:
зображення SAR розбивається на рівномірні частини, які обробляються на різні
вузли за допомогою інтерфейсу програми Open MP. Використання сіток
44
дозволило значно скоротити час, необхідний для обробки зображень. Зокрема, на
обробку одного зображення SAR на одній робочій станції знадобилося
приблизно 10-30 хвилин ( залежно від розміру зображення). Використання
обчислювальних ресурсів Grid дозволило нам скоротити час до менш ніж 1
хвилини. Приклад продукту видобутку ступеня затоплення показаний на рис. 3.6.
Рис. 3.6. Візуалізація результатів обробки зображень для даних ENVSAT/ASAR
WSM під час повені на річці Замбезі, Мозамбік
Оцінка біорізноманіття землі
В рамках інноваційного проекту Національної академії наук України вчені
Наукового центру аерокосмічних досліджень Землі (CASRE) та НДІ НАНУ-
НГАУ спільно розробили веб-сервіс з оцінки біорізноманіття земельних ділянок
для до-Чорноморського регіону України з використанням даних Системи
спостереження Землі.
Біорізноманіття пов’язане з низкою абіотичних та біологічних факторів, які
можна ідентифікувати за допомогою даних дистанційного зондування. До таких
факторів належать:
• ландшафтні типи;
• географічна широта/висота;
45
• кліматичні умови (априклад середньодобові температури, вологість);
• структура та первинна продуктивність рослинногї мантії;
Ці фактори можна оцінити, використовуючи дані спостереження Землі з космосу.
Робочий процес для оцінки біорізноманіття складається з наступних етапів:
• збирання даних;
• обробка даних;
• візуалізація даних;
На рис. 3.7. показана загальна архітектура служби з потоками інформації.
Рис. 3.7. Загальна архітектура служби з інформаційними потоками
Для регулярного отримання супутникових даних була розроблена
спеціальна система. Ця система оперативно стежить за новими продуктами та
забезпечую автоматичне збирання даних з різних джерел:
• LAADS (Atmosphere Archive and Distribution System);
• LP DAAC (Land Processes Distributed Active Archive Center);
46
• NSIDC (National Snow and Ice Data Center);
Набуті дані зберігаються в архіві даних НДІ. Детальна діаграма послідовностей
UML для етапу збору даних показана на рис. 3.8.
Рис. 3.8. Діаграма послідовностей UML для етапу збору даних процедури
оцінки біорізноманіття
Після отримання необхідних даних дані проектуються до конічної проекції
Альберта та масштабуються до просторової роздільної здатності 250 метрів.
Оскільки ми використовуємо дані з різних джерел, для цілей проектування та
масштабування застосовували різні інструменти. Зокрема, використовували
інструмент перегляду проектів MODIS, інструмент перепроектування MODIS та
бібліотеку шару абстракції геопрострорових даних (GDAL).
Оскільки індекс біорізноманіття являє собою параметр, який оцінюються
за часовий діапазон, потрібно розрахувати середні значення параметрів, що
впливають на біорізноманіття. Для цього були створені середні композитні
47
зображення. Використовуючи ці композити та сонячне опромінення, отримані від
STM DEM v2, ми оцінили індекс біорізноманіття за нечіткою моделлю.
Отриманий продукт – це геореференційний файл у форматі GeoTIFF, що показує
індекс біорізноманіття для даного регіону. робочий процес кроку обробки даних
контролюється двигуном Karajan, в той час як дані обробляються на
обчислювальних ресурсах системи Grid за допомогою сервісу GRAM. Детальна
діаграма послідовностей UML для етапів візуалізації даних показаа на рис. 3.9.
Рис. 3.9. Діаграма послідовностей UML для етапів обробки та візуалізації
даних процедури оцінки біорізноманіття
Запропонований веб-сервіс реалізований на основі стандартів OGC ,
сервісу веб-карт 1.1.1 та сервісу веб-охоплення 1.0. Розроблений веб-сервіс
доступний через Інтернет за адресою http://biodv.ikd.kiev.ua (рис. 3.10). Він
представляє поточний розподіл потенційного біорізноманіття та дозволяє
контролювати кожен із факторів, що впливають на біорізноманіття.
48
Підсумовуючи, ми можемо вказати на наступні переваги використання Grid-
технологій для описаних додатків. В межах метеорологічного застосування,
використання ресурсів системи Grid дозволило значно скоротити час,необхідний
для запуску моделі (до 43,6 разів). Це особливо можливо для тих випадків, коли
потрібно налаштувати модель та адаптивувати ії до конкретного регіону та, таким
чином, запускати модель кілька разів, щоб знайти найкращу конфігурацію та
параметризацію. Для потопу Програма Grid також дозволила нам скоротити
загальний обчислювальний час, необхідний для обробки супутникового
зображення, та зробила можливим швидке реагування в рамках міжнародних
програм та ініціатив, пов’язаних з надзвичайними ситуаціями. Окрім
застосування біорізноманіття, переваги сіток полягають у здатності керувати
великими обсягами даних та здійснювати високоефективні обчислення, оскільки
необхідний аналіз історичних даних.
Рис. 3.10. Демонстрація веб-сервісу з оцінки біорізноманіття для
Передчорноморського регіону України
49
3.3 Інтеграція сенсорної мережі в системи моніторунгу навколишнього
середовища
Особам, які приймають рішення у надзвичайних стуаціях (наприклад
повені, посухи), необхідний швидкий доступ до наявних даних, можливість
запиту та обробки даних, характерних для надзвичайних ситуацій. Також
потрібні інструменти для швидкого інтегрування різних джерел в основу для
прийняття рішень.Представлений тут сценарій прогнозування та моніторингу
паводків реалізуються в рамках програми GEOSS AIP-2 (Пілотна фаза
впровадження архітектури-2). Він використовує дані опадів з моделі Глобальної
системи прогнозування (GFS) та місії NASA щодо вимірювання тропічних опадів
(TRMM) для виявлення потенційних повеней. Після виявлення районів ми
можемо запросити супутникові дані для конкретної території для оцінки повеней.
Ці дані можуть бути як оптичними (як EO-1, MODIS, SPOT) так і
мікрохвильовими (Envisat, ERS-2, ALOS, Radarsat-1).
З технологічної точки зору, сценарій реалізується за допомогою сенсорної
мережі та сітки. Інтеграція сенсорних мереж з обчислювальною технологією Grid
приносить подвійні переваги:
• Сенсорні мережі можуть вивантажувати тяжкі операції з обробкою на Grid;
• Датчики, засновані на основі Grid, можуть надавати передові послуги для
інтелектуального зондування шляхом розгортання конкретних сценаріїв
для операторів під час виконання.
Веб-парадигма сенсора
Sensors Web – це нова парадигма та технологічний стек для інтеграції
різнорідних датчиків у загальну інформаційну інфраструктуру. Основна
функціональність, необхідна для такої інфраструктури, - це віддалений доступ о
даних із можливостями фільтрації, виявлення датчиків та запуск подій за умов
датчиків.
Sensor Web керується наборов стандартів, розроблених Відкритим
Геопросторовим Консорціумом. В даний час доступні такі стандарти та
затверджені консорціумом:
50
• GC Observations and Measurements (спостереження та вимірювання GC)
- загальні терміни та визначення для веб-домену Sensor;
• Sensor Model Language (мова моделі датчика) – мова на основі XML для
опису датчиків різних видів;
• Transducer Model Language (мова моделі перетворювача) – мова на
основі XML для опису характеристик відповіді перетворювача;
• Sensor Observations Service (служба спостереження за датчиками) –
інтерфейс для надання віддаленого доступу до даних датчиків;
• Sensor Planning Service (служба планування датчиків) – інтерфейс для
подання завдань сенсорам;
Веб-парадигма Sensor передбачає, що датчики можуть належати різним
організаціям з різною політикою доступу, або в більш широкому розумінні, до
різних адміністративних областей. Однак існуючий стек стандартів не забезпечує
жодних засобів для застосування політики доступу до даних, залишаючи її
основними технологіями. Один із можливих способів вирішення питань
інформаційної безпеки в Sensor Web представлений у наступних підрозділах.
Корпус використання датчиків веб-датчиків
Однією з найскладніших проблем впровадження технології Sensor Web є
глобальний екологічний моніторинг в рамках GEOSS. У цій роботі ми
розглядаємо проблему моніторингу повеней за допомогою даних супутникового
зондування, даних на місці та результатів моделювання.
Проблема моніторингу паводків сама по собі споживає дані з багатьох
різнорідних джерел даних, таких як супутники дистанційного зондування
(використовуються дані датчиків ASAR, MODIS та MERIS), спостереження на
місці (рівень води, тепература, вологість). Прогнозування повеней додає
складності фізичному моделюванню завдання.
Перспектива Sensor Web у цьому тестовому прикладі зображена на рис.
3.11. Він показує співпрацю різних специфікацій Open GIS для Sensor Web. Дані
з різних джерел (числові моделі, дистанційне зондування, спостереження на
51
місці) доступні через Службу спостереження датчиків (SOS).На сайті агрегатора
працює Служба сповіщень датчиків, щоб повідомити зацікавлену організацію
про можливі події затоплення, використовуючи різні засоби зв’язку. Сайт
агрегатора також відправляє замовлення на супутникові приймальні пристрої за
допомогою Служби планування датчиків (SPS), щоб отримати супутникові
знімки, доступлі лише за попереднім замовленням.
Рис. 3.11. Веб-датчик з точки зору тестування на затоплення
Сертифікація Служби спостереження за сенсорним веб-сайтом
Веб-сервіси датчиків, такі як SOS, SPS, SAS, можуть скористатися
інтеграцією з такою платформою Grid, як GlobusToolkit. багато можливостей
Sensor Web можуть скористатися послугами платформи Grid, а саме:
• Виявлення датчиків мое бути здійснено за допомогою комбінації служб
індексу та тригера;
52
• Доступ на високому рівні до опису XML сервісів сенсорів та сервісів може
бути здійснений за допомогою запитів до Служби Index;
• Платформа Grid – це зручний спосіб для здійснення сповіщень та
ініціювання подій за допомогою відповідних компонентів платформи;
• Послуга надійної передачі файлів забезпечує надійну передачу даних для
великих обсягів даних;
• Інфраструктура безпеки Globus забезпечує примусове застосування
політик доступу до даних та послуг дуже гнучким способом, що дозволяє
реалізувати бажану політику безпеки;
Розроблено тестовий сервіс SOS, використовуючи GlobuToolkit як
платформу. В даний час ця служба працює як апрокси-трансляція та пере
адресація запитів користувачів на стандартний сервер HTTP SOS (рис. 3.12).
Поточна версія використовує клієнтські бібліотеки для взаємодії з SOS, що
надається 52North в OX-Framework. Наступна версія такоє буде включати в себе
функціональну реалізацію функціональності SOS-сервера.
Рис. 3.12. Реалізація полуги на базі сітки
Служба сітки, що реалізує SOS, забезпечує інтерфейс, вказаний у
довідковому документі SOS. Ключова відмінність між стандартними
інтерфейсами та реалізацією SOS на основі Grid полягає в кодуванні запитів на
обслуговування. Стандартна реалізація використовує власну серіалізацію для
53
запитів та відповідей, а реалізація на основі Grid використовує стандартне
кодування SOAP.
Щоб скористатися більшості функцій Globus, служба SOS повинна
експортувати можливості служби та описи датчиків як властивості ресурсу
WSRF. Зазвичай реалізація таких властивостей вимагає перекладу між XML-
схемою та кодом Java. Однак, XML-схема SOS та пов’язані з нею програми
стандарти, зокрема GML, є дуже складним, і немає доступних програмних
засобів, здатних генерувати з нього класи Java. Цю проблему вирішили,
зберігаючи дані службових можливостей та даних описів датчиків як об’єкт
елементів DOM та використовуючи власну серіалізацію для цього класу, надану
рамкою Axis, яка використовується GlobusToolkit. Використовуючи цей підхід,
ми не можемо отримати доступ до окремих елементів документа XML в
об’єктно-орієнтованому стилі. Однак служба SOS Grid виступає проксі-сервером
між користувачем та реалізацією SOS, тому не потрібно змінювати XML
безпосередньо. Завдяки властивостям ресурсів, визначениим таким чиом, ми
можемо отримати доступ до нього за допомогою стандартного API Globus або
утиліти командного рядка.
Існуючі тенденції та ініціативи
GEOSS та GMES
Процеси глобалізації та інтеграції є домінуючими тенденціями в розробці
нових рішень для вирішення складних проблем. В даний час зусилля
міжнародного співробітництва зосереджені на впровадженні GEOSS. GEOSS –
це розподілена система, побудована на основі поточного міжнародного
співробітництва між існуючими системами спостереження за Землею та
управління даними, віддаленими датчиками та системами.
GMES – це європейська ініціатива щодо впровадження інформаційних
служб, що стосуються навколишнього середовища та безпеки; підтримка
управління надзвичайними ситуаціями у випадку стихійних небезпек;
прогнозування морських зон, якості повітря або угідь тощо. Потужність GMES
базується на чотирьох взаємнопов’язаних компонентах:
54
• Послуги;
• Спостереження з космосу;
• Інтеграція даних;
• Управління інформацією;
Інтеграція даних та управління інформацією дозволять користувачеві
отримувати доступ та розповсюджувати інформацію.
В рамках діяльності GEOSS I GMES зазначається, що області, які є
обчислювальними даними потребують високоефективних мереж та обчислень на
основі Grid для основного обміну даними, аналізу та візуалізації результатів.
Решіткові проекти для програм спостереження Землі
Європейський проект передачі даних (EDG) був першим великим
проектом, який фінансується Європейською комісією. Багато результатів проекту
були включені до європейського проекту Enabling Grids для E-sciencE (EGEE).
EGEE має на меті розробити сервісну інфраструктуру, яка доступна вченим
цілодобово. Спираючись на добутий досвід, ESA та ESRIN зосередили свою
увагу на розробці інфраструктури обробки спостереження Землі за потребою.
Grid вважається зручною “відкритою платформою” для обробки
обчислювальних ресурсів, даних, інструментів і не обмежується лише
високоефективними обчисленнями. G-POD забезпечує доступ до різних даних та
продуктів із супутника Envisat, приладу SEVIRI на борту супутника MSG
(Meteosat другого покоління) та ін.
Одне з найважливіших застосувань – це аналіз довготривалих даних.
Наприклад, аналіз 8-річної температури на борту (загальна 525 Гбіт даних)
зайняв не більше 2 діб на 40 комп’ютерних елементах структури ESRIN “Grid-
on-demand” (загалом було оброблено 38466 файлів). В даний час інфраструктура
G-POD складається з понад 150 робочих вузів, здатних зберігати та обробляти
близько 100 Тб даних.
FAIRE – ще одна програма на основі Grid, яка оперативно
використовується ESA в контексті картографування повеней. Додаток
55
використовує перевагу технології Grid для доступу до даних, калібрування,
орторектифікації, проектування карти та основної реєстрації. Додаток
оперативно використовується в контексті Міжнародної хартії “ Космос та основні
події ”.
Проект по розповсюдженню та експлуатації Grid у науці про Землю
(DEGREE)– це проект, який має на меті побудувати міст, що з’єднує спільноти
Наук про Землю та Сітки(Grid) в Європі. Сітка вважається відповідною
платформою для інтеграції різнорідних ресурсів даних, інструменти обробки,
моделі, алгоритми тощо. Наступні прикладні проблеми належать до рівня
DEGREE:
• Аналіз землетрусів;
• Моделювання та прогнозування повеней;
• Вплив кліматичних змін на сільське господарство;
Японське агенство з аерокосмічної експлорації (JAXA) та Університет
Кейо розпочали створення цифрової азіасистеми, спрямованої на обробку та
аналіз даних у реальному часі. Вони використовують середовище Grid для
накопичень знань та ноу-хау для обробки даних дистанційного зондування.
Проект “Digital Asia” є частиною проекту “Sentinel Asia”, який спрямований на
створення системи моніторингу стихійних лих.
Проект “The Wide Area Grid” (WAG) ініційований робочою групою з
інформаційних систем та послуг (WGISS) Комітету з супутників спостереження
за Землею (CEOS), ш має на меті розвинути “горизонтальну” інфраструктуру з
метою інтеграції обчислювальні, людські, інтелектуальні та інформаційні
ресурси космічних агентств у межах великої розподіленої системи.
Впровадження геопросторових служб та архівів даних із спостереження за
Землею, що є мережею, є одним із пріоритетних завдань цього проекту.
Висновки. У роботі представлена інфраструктуру Grid, яка інтегрує
обчислювальні та зберігальні ресурси географічно розподілених організацій:
Використання Grid-технологій для домену Спостереження Землі мотивоване
56
необхідністю проводити обчислення в найближчому реальному часі для
швидкого реагування на природні катастрофи та управління великими обсягами
супутникових даних. Застосування програми спостереження Землі також
характеризується складним робочим процесом, який необхідно керувати та
контролювати. Досліджено деякі питання щодо інтеграції технологій Grid та
Sensor Web.
РОЗДІЛ 4
НАДІЙНІСТЬ У МЕРЕЖЕВИХ ОБЧИСЛЕННЯХ СИСТЕМИ
У кожній області існують різні дослідницькі проблеми, які ще мають бути
вирішені, а ключові специфікації необхідно розробити або розширити для кращої
підтримки надійності. Поки що забезпечення надійності зосереджене на
забезпеченні відмовостійкості, що визначається як здатність забезпечити
безперервність обслуговування за наявності несправностей або подій, які
спричиняють помилкову роботу системи.
Акцент на відмовостійкості частково пов’язаний з умовами в середовищі
мережевої системи, в яких можливі збої. Частково це також пов’язано з наявністю
надлишкових ресурсів у мережевих системах, які дозволяють замінити належним
чином функціонуючі ресурси при виникненні збоїв. На відміну від цього, було
менше уваги приділено розробці методів тестування для пошуку та усунення
несправностей у мережевих системах. Аналогічно, було менше зусиль щодо
створення метрик для вимірювання надійності системи електромережі. З
поступовим зростанням масштабів мережевих систем дослідники також
починають усвідомлювати важливість підходів на системному рівні для
підвищення надійності, які враховують такі методи, як аналіз комплексних
систем.
На сьогоднішній день ще не було проведено комплексного обстеження
роботи з надійності електромереж.
4.1 Задача забезпечення надійності в Grid системах
57
Навіть за наявності стандартних інтерфейсів і протоколів зв’язку,
неоднорідність і динамізм ресурсів, ймовірно, призведуть до взаємодії
компонентів, що призведе до збоїв і збоїв, які загрожують виконання
користувацьких програм. Деякі несправності, які зустрічаються в існуючих
мережевих системах, може виявитися важко виявити або спричинити хаос,
поширюючись через мережу. Довготривалі програми, яківимагають багато
ресурсів і повинні давати точні результати, ймовірно, будуть особливо
вразливими. Іншим потенційним джерелом збоїв будуть послуги мережевої
мережі, які передають великі набори даних. Для передачі великих обсягів даних
мережевим службам потрібно буде координувати багато різнорідних мережевих
компонентів і підтримувати стабільні високопропускні з’єднання протягом
тривалого періоду, що також підвищує ймовірність виникнення несправностей.
Іншим ускладнюючим фактором буде асинхронний характер цього середовища,
в якому розподілені компоненти використовують незалежні годинники, а
повідомлення можуть підлягати необмеженій затримці. В результаті
розподіленим компонентам буде складніше координувати свої обчислення або
знати, чи компонент вийшов з ладу або просто повільно реагує. Необхідність
управління великою кількістю обчислювальних, даних і мережевих ресурсів за
таких умов масштабу, неоднорідності та динамізму відрізняє грід-системи від
інших типів розподілених систем. Як стверджували інші, ці відмінності
спонукають до розробки методів надійності, які розроблені спеціально для умов,
що переважають у мережевих середовищах.
Незважаючи на ці відмінні характеристики, методи забезпечення
надійності мережевих систем тісно пов'язані з методами надійності,
розробленими в інших галузях дослідження розподілених систем, і частково
засновані на них. Робота з надійності в інших областях розподілених систем має
довгу і багату історію, про що свідчать минулі роботи над глобальними
мережами, високопродуктивними кластерними обчисленнями та системами
розподілених баз даних. Також важливою для грід-систем є попередня робота над
алгоритмами кількісної оцінки, які вимірюють надійність у розподілених
системах. Однорангові мережі також впливають на мережні системи, але
58
оскільки це також нова технологія, надійність була менш детально досліджена.
Іншою новою сферою, яка може вплинути на грід-обчислення, є хмарні
обчислення, які надають спрощені інтерфейси для доступу до послуг віртуальних
масових обчислень, призначених для вузько визначених доменів додатків. Хоча
ще було мало можливостей вивчити, чи можуть проекти хмарних систем
підвищити надійність, хмарні послуги на вимогу тепер пропонуються з прозорою
відмовостійкістю. Методи надійності з цих областей розподілених обчислень
забезпечують основу для дослідження надійності мережі та впливають на нього.
Якщо це доречно, у цьому дослідженні обговорюються ці відносини.
4.2 Надійність Grid ресурсів
Через його очевидну важливість більше зусиль було спрямовано на
забезпечення надійності обчислювальні ресурси, які містять мережні системи,
ніж інші функціональні області, зазначені вище.
Ресурси сітки включають кластери процесорів, суперкомп’ютери, пристрої
зберігання даних та пов’язане обладнання, а також операційну систему та інше
програмне забезпечення для керування цими ресурсами. Ресурси сітки також
включають програмні компоненти, які виконують функції аналізу, такі як аналіз
даних. Іншою категорією ресурсів сітки є сховища даних, що використовуються
в даних і мультимедійних сітках.
На сьогоднішній день розробка методів забезпечення надійності ресурсів
мережі як в дослідницьких, так і в комерційних системах в основному означала
розробку методів відмовостійкості. Відмовостійкість складається з:
(1) виявлення несправностей і збоїв у ресурсах мережі;
(2) відновлення, щоб продовжити обчислення.
Як і щодо надійності в цілому, методи відмовостійкості, які
використовуються в сучасних комерційних і наукових мережевих системах,
засновані на технології розподілених систем. При застосуванні кваліфікованих
інженерів ці методи можуть забезпечити і забезпечують відмовостійкість для
систем поточного масштабу на одному підприємстві. Проте, очікуючи зростання
мережевих систем, дослідники розробляють методи відмовостійкості, які
59
розширюють поточні технології для роботи в умовах більшого масштабу,
неоднорідності та динамізму. Також охоплюється робота над методами
випробувань для усунення несправностей, хоча й менш обширна.
Виявлення несправностей і збоїв у Grid ресурсах
Дослідники дослідили масштабовані методи виявлення несправностей у
середовищах мережевих систем. Робота також була зосереджена на методах
ізоляції несправностей і діагностики для розпізнавання різних типів
несправностей. Інша сфера, яка викликає занепокоєння, пов’язана з
важковиявленими несправностями, які, як очікується, виникнуть у
великомасштабних, неоднорідних, динамічних мережах. Проте більшість
розроблених методів виявлення несправностей залишаються
експериментальними.
Обмеження сучасних методів виявлення несправностей. Методи
виявлення відмов, розроблені для поточних розподілених систем, як правило, не
вважаються придатними для великомасштабних, гетерогенних, динамічних
мережевих систем. Однією з причин є те, що доступні протоколи та інструменти
моніторингу мережі, наприклад, на основі SNMP, покладаються на детальне
знання структури мережі. Така інформація менш імовірно буде доступна у
великомасштабних динамічних середовищах, що мають кілька адміністративних
доменів та доменів безпеки. Виявлення збоїв у мережевих системах також може
бути скомпрометовано іншою добре відомою проблемою, яка виникає в
асинхронних розподілених системах, в яких функції управління (включаючи
виявлення відмов) децентралізовані та піддаються збою.
У таких системах робота Фішера, Барборака і Малека показала, що для
групи розподілених детекторів відмов неможливо досягти детермінованого
консенсусу щодо того, які ресурси вийшли з ладу, якщо будь-який компонент,
залучений до процесу виявлення, також виходить з ладу. Виходячи з цього,
Чандра і Туег вперше охарактеризували виявлення відмов у розподілених
60
системах з точки зору властивостей повноти, здатності виявляти всі компоненти,
які вийшли з ладу, а також точності, здатності уникати помилок. Припускаючи
асинхронне розподілене середовище, вони показали, що група детекторів відмов,
деякі з яких можуть виходити з ладу або допускати помилки, може досягти
консенсусу за допомогою детермінованих процедур, але ціною затримки
виконання властивості повноти та досягнення лише часткової точності.
Робота привела до розробки експериментальних детекторів відмов, які
прагнули гарантувати повноту, але були лише ймовірно точними. Ці системи
виявляли збій детерміновано, використовуючи методи серцевого ритму, за яких
ресурси регулярно надсилали повідомлення (серцебиття) іншим членам групи
серцевих скорочень. Якщо серцебиття були відсутні, учасники групи
використовували процедуру консенсусу, щоб визначити, хто з членів відмовився.
Однак у детекторах збоїв, які використовували цей підхід, було показано, що не
масштабуються в найгіршому сценарії навантаження на мережу, в той час як
альтернативні підходи, які включали централізований моніторинг, були
предметом вузьких місць повідомлень та інших аномалій, які погіршували
продуктивність.
Рис. 4. Виявлення несправностей у GRID ресурсах
61
Вони дійшли висновку, що методи виявлення збоїв, які використовуються
в сучасних розподілених системах, не будуть ефективними в умовах вибуху
повідомлень, динамічного складу ресурсів і мінливості користувацьких програм,
які очікуються в мережевих середовищах. Ранні дослідницькі сітки також
відображають відсутність масштабованого виявлення несправностей. Заніколас і
Сакелларіу провели опитування 19 систем моніторингу мереж на основі
архітектури OGF Grid Monitoring Architecture. Це дослідження прийшло до
висновку, що більшість систем не мають потенціалу для масштабування функції
моніторингу, що перешкоджає масштабованості детекторів несправностей, які
покладалися на них. Відсутність методів виявлення несправностей, придатних
для мережевих середовищ, спонукало роботу, описану нижче.
Дослідження масштабованих методів виявлення несправностей. Ранній
розподілений детектор несправностей для системи Globus вирішував питання
повноти та точності, оцінюючи ймовірність відмови ресурсів. Програми
користувачів можуть отримати ці оцінки та інтерпретувати їх на власний розсуд.
Цей підхід був розроблений для підвищення ефективності та масштабованості
виявлення несправностей шляхом від’єднання цієї функції від функції
моніторингу. За цією роботою послідували інші експериментальні детектори
відмов, які були побудовані на основі, приклади яких обговорюються тут. Було
запропоновано детектор збоїв, який намагався зберегти повноту та досягти
масштабованості шляхом організації ресурсів мережі в групи серцевих скорочень
на основі логічної топології мережі, відображеної в їхніх Інтернет-адресах.
Лідерні вузли або монітори, на які ресурси надсилали серцеві ритми, були
зроблені зайвими для відмовостійкості. Показано, що загальна кількість
серцевих скорочень, необхідна для моніторингу всіх ресурсів, масштабується з
обчислювальною складністю O(n), де n – кількість груп серцевих скорочень.
Життєздатність цього підходу була продемонстрована в експериментах на
тестовому стенді, який моделював 144 вузли процесора. Хоріта та ін.
запропонував масштабовану, самоорганізуючу систему виявлення
62
несправностей, засновану на попередній роботі з використання протоколів
членства в групах для виявлення несправностей. У цьому підході кожен процес
контролювався невеликою групою (4 або 5) випадково вибраних процесів на
віддалених вузлах. Процеси моніторингу встановили з’єднання протоколу
керування передачею (TCP) з процесом, що контролюється, і періодично
передавали короткі повідомлення, щоб перевірити, чи з’єднання діє. Це призвело
до створення віртуальної підмережі моніторингу в сітці, що складається з
різнорідних типів ресурсів, за допомогою яких можна було б розповсюджувати
повідомлення про збій підключення. Експерименти показали масштабованість
для системи кластерів із трьома вузлами (або мережевих сайтів), які містили 300
ресурсів. Ресурси були організовані в окремі домени, в яких вони передавали
серцебиття на монітор домену; тут домени моніторингу були структуровані
ієрархічно для масштабованості.
Виявлення різних типів несправностей. Важливим аспектом забезпечення
повноти та точності є розпізнавання різних типів несправностей, які призводять
до збоїв. Повідомлялося про ранню роботу над структурою обробки
несправностей, яка могла б розрізняти різні види збоїв під час імітованих
операцій мережі. Ця система також ініціювала дії відновлення, призначені для
усунення різних типів несправностей. Джіцумото та ін. розробив детектор, який
розрізняв апаратні, процесні та передачі. Тут користувачам було дозволено
попередньо вибрати процедуру відновлення, яка буде запущена у відповідь на
виникнення певного типу помилки. Виявилося, що цей підхід демонструє
хорошу продуктивність на 32-вузловому кластерному тестовому стенді.
Запропоновано метод виявлення та прогнозування різних типів несправностей за
допомогою схеми класифікації несправностей та аналізу даних. У методі
виявлення та відновлення несправностей для перехідних процесів повідомлялося
про помилки. Тут використовувалася адаптивна схема для періодичної перевірки
(тобто збереження стану) реплікованих процесів, які виконувались паралельно.
Потім стани процесу з контрольною точкою порівнювалися з виявленням
помилкових обчислень, на які впливають перехідні збої. Оскільки ця процедура
була обчислювально інтенсивною, інтервал контрольної точки динамічно
63
змінювався у відповідь на спостережувану частоту несправностей для
підвищення її ефективності.
Jin та ін. розробив ієрархічний детектор збоїв у мережі та обробник збоїв,
які адаптувалися до мінливих вимог користувача та умов системи. Експерименти
на тестовому стенді показали, що цей підхід масштабується до 1000 компонентів
у двох місцях. Робота над адаптивними механізмами для виявлення різних типів
несправностей також була проведена в рамках проекту Європейського Союзу
Datagrid. Довгострокові моделі несправностей вивчалися на тестовому стенді,
наданому програмою Pacific Rim Application and Grid Middleware Assembly.
Дослідження методів відновлення ресурсів мережі
Як і в розподілених системах загалом, методи відновлення в мережевих
системах покладаються на використання надмірності. Необхідно розглянути дві
форми надмірності. Тимчасова надмірність передбачає повторюваність спроби
перезапустити ресурси або служби, які не вдалися. Просторова надмірність
намагається скористатися перевагами кількох копій обчислювальних ресурсів. У
сітках використовується як тимчасова, так і просторова надмірність. Однак,
оскільки Grid-cистеми за своєю суттю забезпечують надлишкові обчислювальні
ресурси, просторове резервування було центром дослідження відмовостійкості, і
тому є основною темою цього розділу.
Існують три методи, які підкреслюють просторову надмірність:
1. контрольна точка або періодичне збереження стану процесу, що
виконується на обчислювальному ресурсі, щоб у разі збою ресурсу він міг
відновитися на іншому ресурсі;
2. Реплікація або підтримка достатньої кількості реплік або копій процесу,
що виконується паралельно на різних ресурсах, щоб принаймні одна репліка була
успішною;
3. Перепланування або пошук інших ресурсів для повторного виконання
невдалих завдань. Зауважте, що (1) і (3) передбачають операції, які повторюються
з часом і тому є тимчасово зайвими.
64
Взяття контрольних точок — це процес періодичного збереження стану
запущеного процесу в надійне сховище. Контрольна точка дозволяє
перезапустити процес, який не вдається перезапустити з точки останнього
збереження її стану або контрольної точки. Якщо головний процесор не вийшов
з ладу, тимчасове резервування можна використовувати для відкату та
перезапуску процесу на тій же платформі. Як і в інших системах, цей метод
широко використовується в мережах. В іншому випадку, якщо хост вийшов з
ладу, процес може бути перенесений або перенесений в інше середовище
виконання, де його можна перезапустити з контрольної точки (метод також
називається перемиканням збоїв). Найбільш помітним є питання пошуку
ефективних методів контрольної точки для багатьох одночасних взаємозв’язаних
процесів, щоб у разі збою вони могли відновитися із загального збереженого
стану. Контрольну точку можна ініціювати або з мережевих систем, або з
додатків.
Дослідження масштабованих методів виявлення несправностей. Ранній
розподілений детектор несправностей для системи Globus вирішував питання
повноти та точності шляхом оцінки ймовірності відмови ресурсів. Програми
користувачів можуть отримати ці оцінки та інтерпретувати їх на власний розсуд.
Цей підхід був розроблений для підвищення ефективності та масштабованості
виявлення несправностей шляхом від’єднання цієї функції від функції
моніторингу. За цією роботою послідували інші експериментальні детектори
відмов, які були побудовані на основі, приклади яких обговорюються тут. Було
запропоновано детектор збоїв, який намагався зберегти повноту та досягти
масштабованості шляхом організації ресурсів мережі в групи серцевих скорочень
на основі логічної топології мережі, відображеної в їхніх Інтернет-адресах.
Лідерні вузли або монітори, на які ресурси надсилали серцеві ритми, були
зроблені зайвими для відмовостійкості. Показано, що загальна кількість
серцевих скорочень, необхідна для моніторингу всіх ресурсів, масштабується з
обчислювальною складністю O(n), де n – кількість груп серцевих скорочень.
65
Рис. 4.1. Робочий процес для розробки системи виявлення несправностей на
основі даних.
Життєздатність цього підходу була продемонстрована в експериментах на
тестовому стенді, який моделював 144 вузли процесора. Було запропоновано
масштабовану, самоорганізуючу систему виявлення несправностей, засновану на
попередній роботі з використання протоколів членства в групах для виявлення
несправностей.
У цьому підході кожен процес контролювався невеликою групою (4 або 5)
випадково вибраних процесів на віддалених вузлах. Процеси моніторингу
встановили з’єднання протоколу керування передачею (TCP) з процесом, що
відстежується, і періодично передавали короткі повідомлення, щоб перевірити,
чи з’єднання діє. Це призвело до створення віртуальної підмережі моніторингу в
сітці, що складається з різнорідних типів ресурсів, за допомогою яких можна
було розповсюджувати повідомлення про збій підключення. Експерименти
показали масштабованість для системи кластерів із трьома вузлами (або
мережевих сайтів), які містили 300 ресурсів. Ресурси були організовані в окремі
домени, в яких вони передавали серцебиття на монітор домену; тут домени
моніторингу були структуровані ієрархічно для масштабованості.
Виявлення різних типів несправностей. Важливим аспектом забезпечення
повноти та точності є розпізнавання різних типів несправностей, які призводять
до збоїв. Повідомлялося про ранню роботу над структурою обробки збоїв, яка
66
могла розрізняти різні види збоїв під час моделювання операцій мережі. Ця
система також ініціювала дії відновлення, призначені для усунення різних типів
збоїв. Було розроблено детектор, який розрізняє апаратне забезпечення, процес,
і несправності трансмісії. Тут користувачам було дозволено попередньо вибрати
процедуру відновлення, яка буде запущена у відповідь на виникнення певного
типу помилки.
Виявилося, що цей підхід демонструє хорошу продуктивність на 32-
вузловому кластерному стенді. Запропоновано метод виявлення та
прогнозування різних типів несправностей за допомогою схеми класифікації
несправностей та аналізу даних. Повідомлялося про метод виявлення та
відновлення несправностей перехідних процесів. Тут використовувалася
адаптивна схема для періодичної перевірки (тобто збереження стану)
реплікованих процесів, які виконувались паралельно. Потім стани процесу з
контрольною точкою порівнювалися з виявленням помилкових обчислень, на які
впливають перехідні збої. Оскільки ця процедура була обчислювально
інтенсивною, інтервал контрольної точки динамічно змінювався у відповідь на
спостережувану частоту несправностей для підвищення її ефективності. Було
розроблено ієрархічний детектор збоїв у мережі та обробник збоїв, які
адаптувалися до мінливих вимог користувача та умов системи. Експерименти на
тестовому стенді показали, що цей підхід масштабується до 1000 компонентів у
двох місцях. Робота над адаптивними механізмами для виявлення різних типів
несправностей також була проведена в рамках проекту Європейського Союзу
Datagrid. Довгострокові моделі несправностей вивчалися на тестовому стенді,
наданому програмою Pacific Rim Application and Grid Middleware Assembly.
67
Рис. 4.2. Виявлення різних типів несправностей.
Як і в розподілених системах загалом, методи відновлення в мережевих
системах покладаються на використання надмірності. Необхідно розглянути дві
форми надмірності. Тимчасова надмірність передбачає повторюваністьспроби
перезапустити ресурси або служби, які не вдалися. Просторова надмірність
намагається скористатися перевагами кількох копій обчислювальних ресурсів. У
сітках використовується як тимчасова, так і просторова надмірність.
Однак, оскільки грід-системи за своєю суттю забезпечують надлишкові
обчислювальні ресурси, просторове резервування було центром дослідження
відмовостійкості і тому є основною темою цього розділу. Існують три методи, які
підкреслюють просторову надмірність:
1. контрольна точка або періодичне збереження стану процесу, що
виконується на обчислювальному ресурсі, щоб у разі збою ресурсу він міг
відновитися на іншому ресурсі;
68
2. реплікація або підтримка достатньої кількості реплік або копій процесу,
що виконується паралельно на різних ресурсах, щоб принаймні одна репліка була
успішною;
3. перепланування або пошук інших ресурсів для повторного виконання
невдалих завдань. Зауважте, що (1) і (3) передбачають операції, які повторюються
з часом і тому є тимчасово зайвими. У цьому розділі також розглядається робота
з реплікації даних, яка використовує просторове резервування для забезпечення
відмовостійкості в сітках даних.
Контрольні точки та відновлення в поточних мережевих системах.
Методи переміщення контрольних точок і процесів давно використовуються у
високопродуктивних обчислювальних середовищах, і значний обсяг роботи з
цього питання передує грід-обчисленням. Багато розгорнутих нині мережевих
систем, які керують обчислювальними кластерами та запускають паралельні
процеси, використовують методи, засновані на високопродуктивних кластерних
обчисленнях. Прикладами є комерційні сітки, зібрані з компонентів кластерних
обчислень. Ці системи також забезпечують відновлення для менеджерів серверів
або головних вузлів кластера, які керують процесами, що виконуються
одночасно. Наприклад, Reference надає відмовостійку мережну інфраструктуру
для менеджерів серверів і кластерів вузлів. Якщо менеджер дає збій, інший вузол
бере на себе функцію керування, а збій обчислювального вузла призводить до
перезапуску контрольних процесів на іншому вузлі. Незважаючи на повторювані
збої, окремі кластери зберігають логічну структуру, в якій менеджер продовжує
контролювати решту обчислювальних вузлів.
69
Рис. 4.3. Контрольні точки та відновлення в поточних мережевих системах
Дослідницькі сітки та сітки, що використовуються для наукових додатків,
які керують кластерами, також використовують методи переміщення
контрольних точок і процесів на основі високопродуктивних обчислень. Про
перші спроби використання контрольної точки або міграції процесів у великих
кластерних середовищах повідомлялося в Legion, Cactus і Condor. У системі
дослідницької сітки HA-OSCAR відмовостійкість у головних вузлах кластера
була покращена за рахунок взяття контрольних точок інформації про чергу
завдань і регулярного оновлення сервера резервного копіювання. Якщо основний
70
сервер вийшов із ладу, резервна копія могла отримати доступ до актуальної
інформації черги завдань. Експерименти на тестовому стенді продемонстрували
швидший перезапуск виконуваних завдань за допомогою цього підходу.
4.3 Реплікація ресурсів GRID
При реплікації ресурсів сітки кілька ресурсів мережі одночасно виконують
ідентичні обчислення та підтримують ідентичний стан. Мета реплікації полягає
в тому, щоб гарантувати, що принаймні одна репліка завжди зможе завершити
обчислення у випадку невдачі інших.
У деяких випадках одна репліка може бути призначена як основна копія
для цілей зовнішньої взаємодії, тоді як інші беруть на себе роль резервної копії.
У цьому розділі розглядаються методи реплікації ресурсів, розроблені для
підвищення відмовостійкості у великомасштабних мережевих системах.
Розглядаються два аспекти дослідження реплікації ресурсів:
1. алгоритми визначення оптимального (або майже оптимального)
розміщення реплік з метою підвищення відмовостійкості;
2. методи синхронізації станів реплік для забезпечення їх узгодженості.
Обидві залишаються дослідницькими проблемами, для яких запропоновані
рішення були оцінені на обмежених тестових стендах або під час моделювання.
За умов масштабування синхронізація репліки може спричинити високі накладні
витрати, а всебічне розуміння бракує компромісів між підвищенням
відмовостійкості за допомогою реплікації та накладними витратами
синхронізації.
Інша проблема полягає в тому, коли використовувати контрольну точку та
міграцію процесів замість реплікації ресурсів і навпаки. Загалом, методи
реплікації вивчені менше, ніж контрольні точки та відновлення. Проте,
враховуючи значні можливості, які відкриває надмірність ресурсів у
великомасштабних мережевих системах, реплікація вимагає більш детального
дослідження.
Методи вибору та розміщення реплік. Було запропоновано систему
керування репліками, яка динамічно розподіляє репліковані ресурси на основі
запитів користувачів. Якщо окремі репліки вийшли з ладу, ця система дозволяла
прозоро перенаправляти запити на ресурси користувача.
71
Експерименти на тестовому стенді показали, що час відповіді добре
масштабується для понад 1000 запитів на трьох сайтах. Інфраструктура
масштабованої реплікації з використанням дослідницької системи Resilient
Autonomic Meshes була розроблена для покращення доступності ресурсів і
відмовостійкості в мережах та інших розподілених середовищах. Тут
обчислювальні ресурси були членами мереж або сіток, які можна було шукати,
щоб знайти вузли, на яких можна було б реплікувати процеси сітки.
Пошук великих сіток було зроблено більш ефективним завдяки організації
обчислювальних ресурсів у структурі охоплюючого дерева та за рахунок
проміжного кешування результатів запиту для повторного використання.
Охоплююче дерево автоматично переналаштовується в міру додавання або
видалення вузлів, що дозволяє системі масштабуватися у відповідь на зміни
умов. Ресурси-учасники працювали безпечно та анонімно, дозволяючи сітці
включати кілька адміністративних доменів.
72
ВИСНОВКИ
Грід-технології набувають важливого значення – відбувається перехід від
тестових випробувань і пробного обслуговування пілотних програм до постійної
стійкої роботи по обслуговуванню самих різноманітних прикладних галузей
науки і виробництва. У зв'язку з цим перед розробниками нового прикладного
ПЗ, перед розробниками грід-ПЗ встають нові масштабні завдання. Масштаб
впровадження грід-технологій в значній мірі буде залежати від здатності нових
та існуючих додатків бути розгорнутими в цьому середовищі.
Тому тенденції в області розробки і реалізації програм є критичними для
широкого поширення Grid. До теперішнього часу лише відносно невелике число
додатків написані спеціально для грід-систем і лише невелика кількість нинішніх
комерційних додатків, які здавалися перспективними для виконання в грід-
системах, дійсно розгорнуті в Grid або переведені на Grid. Але в міру зростання
практичного інтересу до грід-технологій і до пов'язаних з ним моделям
інфраструктур, будуть потрібні і нові елементи планування, моделі розробки та
засоби для створення і реалізації призначених для Grid додатків.
Запропонований підхід до моделювання та аналізу обчислювальних Grid-
хмарних структур заснований на обліку даних їх моніторингу, використовуваних
потім для динамічної корекції параметрів моделювання. В силу спільності своєї
реалізації розроблена програма моделювання SyMSim може також
застосовуватися для вирішення більш широкого класу задач проектування
віртуальних центрів обробки і зберігання великих масивів даних. Зокрема
програму можна застосовувати для проектування і подальшого розвитку сховищ
інформації.
У роботі представлена інфраструктуру Grid, яка інтегрує обчислювальні та
зберігальні ресурси географічно розподілених організацій: Використання Grid-
технологій для домену Спостереження Землі мотивоване необхідністю
проводити обчислення в найближчому реальному часі для швидкого реагування
на природні катастрофи та управління великими обсягами супутникових даних.
Застосування програми спостереження Землі також характеризується складним
73
робочим процесом, який необхідно керувати та контролювати. Досліджено деякі
питання щодо інтеграції технологій Grid та Sensor Web. Така інтеграція може
забезпечити подвійні переваги: сенсорні мережі можуть вивантажувати важкі
операції обробки на Grid та прикладні сенсори на основі Grid можуть надавати
передові послуги для інтелектуального зондування, розгортаючи конкретні
сценарії. Програми включають: чисельне прогнозування погоди, що є досить
інтенсивним для обчислень, повені, що потребують швидкого реагування на
надзвичайні ситуації, та оцінка біорізноманіття, що вимагає аналізу та інтеграції
великих обсягів даних для отримання кінцевого продукту.
74
СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ
1. Allcock W, Bresnahan J, Kettimuthu R, Link M (2005) The Globus Striped
GridFTP Framework and Server.
2. Beaujardiere J (ed) (2006) OpenGIS® Web Map Service Implementation
Specification. Open Geospatial Consortium Inc.
3. Botts M, Percivall G, Reed C, Davidson J (2007) OGC Sensor Web Enablement:
Overview and High Level Architecture(OGC 07-165)
4. Chu X, Kobialka T, Durnota B, Buyya R (2006) Open sensor web architecture: core
services. In: Proc of the 4th Int Conf on Intelligent Sensing and Information
Processing (ICISIP). IEEEPress, Piscataway, New Jersey, USA, pp 98–103
5. Corbley KP (1999) Radar Imagery Proves Valuable in Managing and Analyzing
Floods Red River flood demonstrates operational capabilities. Earth Observation
Magazine, vol. 8, num. 10
6. Feller M, Foster I, Martin S (2007) GT4 GRAM: A Functionality and Performance
Study.
7. Foster I (2005) Globus Toolkit Version 4: Software for Service-Oriented Systems.
In: IFIP International Conference on Network and Parallel Computing, Springer
Verlag .
8. Fusco L, Goncalves P, Julian L, Fulcoli M, Terracina A, D’Acunzo G(2003) Putting
Earth-Observation Applications on the Grid.
9. Fusco L, Cossu R, Retscher C (2007) Open grid services for envisat and earth
observation applications. In: Plaza AJ, Chang C-I (eds)High performance
computing in remote sensing.
10. GEOSS, Global Earth Observation System of Systems (2005) 10-Year
Implementation Plan: reference document. ESA Publication Division, Netherlands.
11. GMES, Global Monitoring for Environment and Security (2004)Establishing a
GMES capacity by 2008 - (Action Plan (2004–2008)). Communication from the
Commission to the European Parliament and the Council, Brussels, COM (2004)
65 final.
75
12. Hansen AJ, Rotella JJ (1999) Abiotic factors. In: Hunter ML (ed)Maintaining
biodiversity in forest ecosystems. Cambridge University Press, Cambridge, pp
161–209.
13. Horritt MS (2006) A methodology for the validation of uncertain flood inundation
models. J of Hydrology 326:153–165.
14. Humphrey M, Wasson G, Jackson K, Boverhof J, Rodriguez M, Bester J,Gawor J,
Lang S, Foster I, Meder S, Pickles S, McKeown M (2005)State and events for web
services: a comparison of five WS-resource framework and WS-notification
implementations. In: Proc 4th IEEEInt Symp on High Performance Distributed
Computing (HPDC-14), Research Triangle Park, NC.
15. King MD, Closs J, Spangler S, Greenstone R, Wharton S, Myers M(2004) EOS
data products handbook (Vol 1). NASA Goddard Space Flight Center, Greenbelt.
16. Kopp P, Petiteville I, Shelestov A, Li G (2007) Wide Area Grid (WAG).In: Proc of
the 7th Ukrainian Conf on Space Research (National Flight and Control Center,
Evpatoria, Ukraine) p 209.
17. Kogan F, Stark R, Gitelson A, Adar E, Jargalsaikhan L, Dugrajav C,Tsooj S (2004)
Derivation of pasture biomass in Mongolia fromAVHRR-based vegetation health
indices. Int J Remote Sens 25(14):2889–2896.
18. Kussul N, Shelestov A, Korbakov M, Kravchenko O, Skakun S, Ilin M(2008a)
Grid infrastructure for satellite data processing in Ukraine. Int J Inf Techn and
Knowledge 2(1):69–76.
19. Larman C (2004) Applying UML and patterns: An introduction too bject-oriented
analysis and design and iterative development, 3rd edn. Prentice Hall PTR, Upper
Saddle River, NJ.
20. Kussul N, Shelestov A, Skakun S (2008b) Grid system for flood extent extraction
from satellite images. Earth Science Informatics 1(3–4):105–117.
21. Liang S (2004) Quantitative remote sensing of land surfaces.
22. Mandl D, Frye SW, Goldberg MD, Habib S, Talabac S (2006) Sensor Webs: Where
they are today and what are the future needs? In:Proc Second IEEE Workshop on
Dependability and Security in Sensor Networks and Systems (DSSNS 2006), pp
65–70.
76
23. Michalakes J, Dudhia J, Gill D, Henderson T, Klemp J, Skamarock W,Wang W
(2004) The weather research and forecast model:software architecture and
performance. In: Proc of the 11thECMWF Workshop on the Use of High
Performance ComputingIn Meteorology (25–29 October 2004, Reading U.K)
24. Moe K, Smith S, Prescott G, Sherwood R (2008) Sensor Web Technologies for
NASA Earth Science. In: Proc of 2008 IEEE Aerospace Conference, pp 1–7
25. Popov M., Kussul N., Stankevich S., Kozlova A., Shelestov A., Kravchenko O.,
Korbakov M., Skakun S. (2008) Web service for biodiversity estimation using
remote sensing data. Int J Digital Earth 1(4):367–376.
26. Shelestov A, Kussul N, Skakun S (2006) Grid technologies in monitoring systems
based on satellite data. J of Automation and Inf Sci 38(3):69–80.
27. Wagner W, Pathe C, Sabel D, Bartsch A, Kuenzer C, Scipal K (2007) Experimental
1 km soil moisture products from ENVISAT ASAR for Southern Africa. In: Proc
of ENVISAT Symposium 2007,Montreux, Switzerland, SP-636.
28. Welch V, Siebenlist F, Foster I., Bresnahan J, Czajkowski K, Gawor J,Kesselman
C, Meder S, Pearlman L, Tuecke S (2003) Security for grid services. In: Proc 12th
IEEE Int Symp on High Performance Distributed Computing, pp 48–57.
29. H. Kishimoto and J. Treadwell, "Defining the grid: a roadmap for OGSA standards
v1.0", http://www.ogf.org/documents/GFD.53.pdf