![]() |
Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | |
|
РОЗДІЛ 5. Інноваційні напрями розвитку систем штучного інтелекту
5.1. Штучні нейронні мережі – конекціоністський підхід в моделюванні людського мозку
Перспективними інноваційними напрямами розвитку штучного інтелекту (ШІ) на сучасному етапі є: штучні нейронні мережі (ШНМ); розпізнавання образів; робототехніка; використання для вирішення повсякденних завдань автономних агентів; експертні системи; нечітка логіка; еволюційні обчислення; розподілені обчислення; інтелектуальна інженерія; СУБД, що самоорганізуються; автоматичний аналіз природних мов; медичні системи для консультування лікарів; створення повністю роботизованих підприємств. Продовжується вдосконалення алгоритмів навчання і класифікації в масштабі реального часу, обробки мов, розпізнавання зображень, сигналів, а також створення моделей інтелектуального інтерфейсу, що підстроюється під користувача.
Серед основних прикладних завдань, вирішуваних за допомогою нейронних мереж, – фінансове прогнозування, діагностика систем, контроль за діяльністю мереж, шифрування даних. Останніми роками йде посилений пошук ефективних методів синхронізації роботи НМ на паралельних пристроях.
Штучний нейрон (ШН) імітує в першому наближенні властивості біологічного нейрона. На вхід ШН надходить деяка безліч сигналів, кожний з яких є виходом іншого нейрона. Кожен вхід множиться на відповідну вагу, аналогічну синаптичній силі, і всі добутки підсумовуються, визначаючи рівень активації нейрона. На рис. 5.1 представлена модель, що реалізує цю ідею. Хоча мережеві парадигми дуже різноманітні, в основу майже всіх їх покладена ця конфігурація. Тут безліч вхідних сигналів, позначених x 1, x 2,., xn, надходить на ШН. Ці вхідні сигнали, що в сукупності позначаються вектором X, відповідають сигналам, що приходять в синапси біологічного нейрона. Кожен сигнал множиться на відповідну вагу w 1, w 2,., wn, і поступає на блок-суматор, що підсумовує , позначена вага
відповідає “силі” одного біологічного синаптичного зв'язку (безліч вагів в сукупності позначається вектором W). Суматор відповідає тілу біологічного елементу, складає зважені входи, створюючи вихід, названий NET. У векторних позначеннях це може бути компактно записано таким чином: NET = XW. Вихідний сигнал нейрона y визначається шляхом пропущення рівня збудження net через нелінійну функцію активації F:
y = F(NET-qi),
де q i – деякий постійний зсув (аналог порога нейрона).
Рис. 5.1. Штучний нейрон
Нейрон складається із зваженого суматора і нелінійного елементу. Функціонування нейрона визначається формулами:
;
,
де хi – вхідні сигнали; сукупність всіх вхідних сигналів нейрона утворює вектор X;
wi – вагові коефіцієнти; сукупність вагових коефіцієнтів утворює вектор вагів W;
NET – зважена сума вхідних сигналів; значення NET передається на нелінійний елемент;
– пороговий рівень даного нейрона;
F – нелінійна функція, названа “функцією активації”.
Нейрон має декілька вхідних сигналів Xi і один вихідний сигнал OUT. Параметрами нейрона, що визначають його роботу, є: вектор вагів wi, пороговий рівень і вид функції активації F. Залежно від типу функції активації розрізняють дискретні персептрони, що використовують порогову функцію активації, і реальні – використовують реальні функції активації, наприклад сигмоїдальну функцію.
Кожний нейрон має невелику пам'ять, реалізовану ваговими коефіцієнтами вхідних синапсів (міжнейронних контактів) і порогом нейрона. Тому нейрони можна розглядати як запам'ятовувальні пристрої. У той же час нейрони можуть розглядатися як примітивні процесори, що здійснюють обчислення значення функції активації на основі різниці зваженої суми вхідних сигналів і порогу.
Характерні риси ШНМ як універсального інструменту для вирішення задач:
1. ШНМ дають можливість краще зрозуміти організацію нервової системи людини і тварин на середніх рівнях: пам'ять, обробка сенсорної інформації, моторика.
2. ШНМ – спосіб обробки інформації:
· гнучка модель для нелінійної апроксимації багатовимірних функцій;
· спосіб прогнозування в часі для процесів, залежних від багатьох змінних;
· класифікатор за багатьма ознаками, що дає розбиття вхідного простору на області;
· спосіб розпізнавання образів;
· інструмент для пошуку по асоціаціях;
· модель для пошуку закономірностей в масивах даних.
3. ШНМ вільні від обмежень звичайних комп'ютерів завдяки паралельній обробці й сильній зв'язаності нейронів.
4. У перспективі ШНМ повинні допомогти зрозуміти принципи, на яких побудовані вищі функції нервової системи: свідомість, емоції, мислення.
Існують та продовжують створюватися інтелектуальні комп’ютерні системи, побудовані на основі ШНМ – це нейрокомп’ютери. Нейрокомп¢ютери мають можливості, що роблять їх істотно відмінними по досягненням бажаного результату. Вони можуть навчатися на прикладах. Якщо існує навчальна вибірка, тобто певна множина пар даних, перша компонента яких є деяким вхідним кортежем, а друга – бажаним виходом на цьому кортежі, то ШНМ може навчитися змінювати власні ваги таким чином, щоб з кожним входом асоціювався вірний вихід. Така можливість є дуже важливою, тому що існує багато проблем, для яких відомий вірний результат, але важко визначити точну процедуру, або список правил, для пошуку результату. Якщо в таких випадках навчання на прикладах допомагає ШНМ побудувати власні приховані правила у термінах використання доречних ваг, вона має безперечні переваги.
Важливою особливістю нейроноподібних систем є їх здатність до ефективного навчання, навіть в умовах, якщо не вдається на вербальному рівні, тобто в словесній формі, сформулювати мету системи та виробити правила її поведінки. Навчання йде в основному на підсвідомому рівні.
Всі ці особливості зумовили привабливість конекціоністського підходу до побудови систем ШІ. Такі системи повинні функціонувати за принципами, подібними до тих, за якими функціонує мозок людини, хоч самі ці принципи залишаються не до кінця зрозумілими. Безумовно, це не виключає використання в таких системах можливостей, характерних для символьного підходу, – зокрема, оперування поняттями, дедуктивне логічне виведення тощо.
Існує багато способів з’єднання між собою ШН, отже можна виділити різні типи ШНМ. В основному вони різняться за такими двома параметрами, як операційні характеристики нейронів та різні конфігурації утворення мережі.
На теперішній час не існує єдиної стандартної класифікації ШНМ, оскільки нейроінформатика є новою областю науки і термінологія тут ще не встановилася. Тому розглянемо класифікацію НМ тільки за деякими базовими характеристиками залежно від:
· кількості шарів нейронів НМ підрозділяють на одно- і багатошарові. Іноді особливо виділяють дво- і тришарові НМ;
· типу функції активації НМ підрозділяють на дискретні, реальні (безперервні) і дискретно-безперервні;
· напрямку поширення сигналів НМ підрозділяють на мережі прямого поширення, мережі зворотного поширення і двонаправлені НМ;
· кількості й структури зв'язків НМ підрозділяють на повнозв‘язні (усі нейрони зв'язані з усіма) і неповнозв‘язні.
Коли в мережі тільки один шар, алгоритм її навчання з вчителем досить очевидний, оскільки правильні вихідні стану нейронів єдиного шару свідомо відомі, і підстроювання синаптичних зв'язків йде в напрямку, що мінімізує помилку на виході мережі. У багатошарових же мережах оптимальні вихідні значення нейронів всіх шарів, окрім останнього, як правило, не відомі, і двох або більш шарових перцептроів вже неможливо навчити, керуючись тільки величинами помилок на виходах ШНМ. Один з варіантів рішення цієї проблеми – розробка наборів вихідних сигналів, відповідних вхідним, для кожного шару ШНМ, що, звичайно, є дуже трудомісткою операцією і не завжди здійсненно. Другий варіант – динамічне підстроювання вагових коефіцієнтів синапсів, в ході якого вибираються, як правило, найбільш слабкі зв'язки і змінюються на малу величину в той або інший бік, а зберігаються тільки ті зміни, які спричинили зменшення помилки на виході всієї мережі. Очевидно, що даний метод, не зважаючи на свою простоту, що здається, вимагає громіздких рутинних обчислень. І, нарешті, третій, допустимий варіант – розповсюдження сигналів помилки від виходів ШНМ до її входів, в напрямку, зворотному прямому розповсюдженню сигналів в звичайному режимі роботи. Цей алгоритм навчання ШНМ отримав назву “процедури зворотного розповсюдження”.
Загальний алгоритм побудови ШНМ:
1. Визначити, який сенс вкладається в компоненти вхідного вектора Х. Вхідний вектор повинен містити формалізовану умову завдання, тобто всю інформацію, необхідну для отримання відповіді.
2. Вибрати вихідний вектор так, щоб його компоненти містили повну відповідь поставленого завдання.
3. Вибрати вид нелінійності в нейронах (функцію активації). При цьому бажано враховувати специфіку завдання, оскільки вдалий вибір скоротить час навчання.
4. Вибрати число шарів і нейронів в шарі.
5. Задати діапазон зміни входів, виходів, вагів і порогових рівнів, враховуючи безліч значень вибраної функції активації.
6. Привласнити початкові значення ваговим коефіцієнтам і пороговим рівням і додатковим параметрам (наприклад, крутизні функції активації, якщо вона настроюватиметься при навчанні). Початкові значення не повинні бути великими, щоб нейрони не опинилися в насиченні (на горизонтальній ділянці функції активації), інакше навчання буде дуже повільним. Початкові значення не повинні бути і занадто малими, щоб виходи більшої частини нейронів не були рівні нулю, інакше навчання також сповільнитися.
7. Провести навчання, тобто підібрати параметри мережі так, щоб завдання вирішувалося найкращим чином. Після закінчення навчання мережа готова вирішити завдання того типа, яким вона навчена.
Алгоритм навчання одношарового дискретного персептрона має вигляд:
Крок 1. Вагам wi (0) (i = 1,...,N) і порогові θ (0) привласнюються випадкові значення (через wi (t) позначений ваговий коефіцієнт i -го входу персептрона в момент часу t, через θ (t) позначена величина зсуву (порога) нейрона в момент часу t).
Крок 2. Пред'являється черговий вхідний вектор х ={ х1,..., хN }т з навчальної множини і бажаний вихід y *(t) (y *(t) = 1, якщо х (t) відноситься до класу A; y *(t) = 0, якщо х (t) відноситься до класу В).
Крок 3. Обчислюється реальне значення на виході персептрона за формулами:
,
.
Крок 4. Коригуються ваги відповідно до рівностей:
wi (t+1) = wi (t) + η (y *(t) – y (t)) xi (t), i = 1, 2,..., N;
θ (t+1) = θ (t) + η (y *(t) - y (t)),
де η – позитивний коригувальний приріст.
Крок 5. Якщо досягнута збіжність, то процедура навчання закінчується; у противному випадку – перехід до кроку 2.
Відповідно до даного алгоритму спочатку відбувається ініціалізація параметрів персептрона випадковими значеннями. Потім по черзі пред'являються образи з відомою класифікацією, обрані з навчальної множини, і коригуються ваги відповідно до формул кроків 3 і 4. Величина коригування визначається позитивним коригувальним прирiстом η, конкретне значення якого вибирається досить великим, щоб швидше здiйснювалося коригування ваг, і в той же час досить малим, щоб не допустити надмірного зростання значень ваг.
Розробка алгоритму зворотного розповсюдження зіграла важливу роль у відродженні інтересу до ШНМ. Не зважаючи на деякі обмеження, процедура зворотного розповсюдження сильно розширила сферу проблем, в яких можуть бути використані ШНМ, і переконливо продемонструвала свою потужність.
Зворотне розповсюдження було використано в широкій сфері прикладних досліджень. Деякі з них описані демонструвати потужність цього методу.
Фірма NEC в Японії оголосила нещодавно, що зворотне розповсюдження було нею використано для візуального розпізнавання літер, причому точність перевищила 99%. Цього поліпшення було досягнуто за допомогою комбінації звичайних алгоритмів з мережею зворотного розповсюдження, що забезпечує додаткову перевірку.
У системі Net-Talk зворотне розповсюдження використовувалося в машинному розпізнаванні рукописних англійських слів. Букви, нормалізовані за розміром, наносилися на сітку, і бралися проекції ліній, що перетинають квадрати сітки. Ці проекції служили далі входами для мережі зворотного розповсюдження. Повідомлялося про точність 99,7% при використанні словарного фільтра.
Алгоритм зворотного розповсюдження застосовується при створенні нейтроконтролерів для робототехніки.
Причина використання НМ нейроконтролерів проявляється в тому, що неможливо задати для робота поводження, які б осягали все можливе в оточуючому середовищі. Тому необхідно вивчити НМ на обмеженій кількості прикладів (тобто зразків поведінки залежно від становища), згодом дозволити йому самостійно генерувати поведінку в усіх інших ситуаціях. Здатність генерувати правильну реакцію на все можливі ситуації, що не стосуються тих,хто навчає, являється ключовим фактором при створенні нейроконтролера.
Дата публикования: 2014-12-11; Прочитано: 1079 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!