![]() |
Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | |
|
Многослойные нейронные сети выполняют аппроксимацию функции нескольких переменных путем преобразования множества входных переменных во множество выходных переменных.
Существует способ отображения входного множества в выходное множество, заключающийся в преобразовании путем адаптации нескольких одиночных аппроксимирующих функций к ожидаемым значениям, причем эта адаптация проводится только в ограниченной области многомерного пространства.
При таком подходе отображение всего множества данных представляет собой сумму локальных преобразований. С учетом роли, которую играют скрытые нейроны, преобразования составляют множество базисных функций локального типа. Выполнение одиночных функций (при ненулевых значениях) регистрируется только в ограниченной области пространства данных - отсюда и название локальная аппроксимация.
Особое семейство образуют сети с радиальной базисной функцией, в которых нейроны реализуют функции, радиально изменяющиеся вокруг выбранного центра и принимающие ненулевые значения только в окрестности этого центра. Подобные функции, определяемые в виде
H(x) = H(||x-c||), | (1.1) |
где х – выходы нейронов первого слоя;
с – центр радиальной базисной функции.
Такие функции называются радиальными базисными функциями. В них роль нейрона заключается в отображении радиального пространства вокруг одиночной заданной точки (центра), либо вокруг группы таких точек, образующих кластер. Суперпозиция сигналов, поступающих от всех таких нейронов, которая выполняется выходным нейроном, позволяет получить отображение всего многомерного пространства.
Сети радиального типа представляют собой естественное дополнение сигмоидальных сетей. Сигмоидальный нейрон представляется в многомерном пространстве гиперплоскостью, разделяющей это пространство на две категории (два класса), в которых выполняется одно из двух условий: либо (u,x) > 0, либо (u,x) < 0. Такой подход продемонстрирован на рисунке 1.1 а.
Рисунок 1.1 - Иллюстрация способов разделения пространства данных: а) сигмоидальным нейроном; б) радиальным нейроном
В свою очередь, радиальный нейрон представляет собой гиперсферу, которая осуществляет шаровое разделение пространства вокруг центральной точки в соответствии с рисунком 1.1 б. Именно с этой точки зрения он является естественным дополнением сигмоидального нейрона, поскольку в случае круговой симметрии данных позволяет заметно уменьшить количество нейронов, необходимых для разделения различных классов. Поскольку нейроны могут выполнять различные функции, в радиальных сетях отсутствует необходимость использования большого количества скрытых слоев.
Структура типичной радиальной сети включает входной слой, на который подаются сигналы, описываемые входным вектором, скрытый слой с нейронами радиального типа и выходной слой, состоящий, как правило, из одного или нескольких линейных нейронов. Функция выходного нейрона сводится исключительно к взвешенному суммированию сигналов, генерируемых скрытыми нейронами [3].
На рисунке 1.2 представлена структура нейронной сети с радиальными базисными функциями.
Рисунок 1.2 – Структура нейронной сети с радиальными базисными функциями
В математической статистике в качестве радиальных базисных функций часто используют полиномиальные функции
hj(x) = xj, | (1.2) |
где x – выходы нейронов первого слоя;
j – коэффициент искривления.
Комбинация синусоидальных функций (ряды Фурье) часто используется при обработке сигналов
![]() | (1.3) |
где θj – центр функции;
m – радиус функции.
Логистические функции наиболее популярны в многослойных искусственных нейронных сетях
![]() | (1.4) |
где b – центр функции;
b0 – коэффициент подстройки.
Наиболее распространенной функцией, применяемой для распознавания образов, является функция Гаусса
![]() | (1.5) |
где с = (с1,с2,…,сn) - вектор координат центра активационной функции нейрона скрытого шара;
δ - ширина окна активационной функции нейрона скрытого шара. [4]
1.3.2 Математические основы нейронных сетей с радиальными базисными функциями
Математическую основу функционирования радиальных сетей составляет теорема Т. Ковера о распознаваемости образов, в соответствии с которой нелинейные проекции образов в некоторое многомерное пространство могут быть линейно разделены с большей вероятностью, чем при их проекции в пространство с меньшей размерностью.
Если вектор радиальных функций в N-мерном входном пространстве обозначить h(x), то это пространство является нелинейно h - разделяемым на два пространственных класса X+ и X- тогда, когда существует такой вектор весов, что
uTh(x) > 0, x € X+, uTh(x) < 0, x € X-. | (1.6) |
Граница между этими классами определяется уравнением
uTh(x) = 0. | (1.7) |
Доказано, что каждое множество образов, случайным образом размещенных в многомерном пространстве, является h - разделяемым с вероятностью 1 при условии соответственно большой размерности этого пространства. На практике это означает, что применение достаточно большого количества скрытых нейронов, реализующих радиальные функции h(x), гарантирует решение задачи классификации при построении всего лишь двухслойной сети: скрытый слой должен реализовать вектор h(x), а выходной слой может состоять из единственного линейного нейрона, который выполняет суммирование выходных сигналов от скрытых нейронов с весовыми коэффициентами, заданными вектором w.
Простейшая нейронная сеть радиального типа функционирует по принципу многомерной интерполяции, состоящей в отображении р различных входных векторов xi (i = 1, 2,... р) из входного N-мерного пространства во множество из р рациональных чисел yi (i = 1, 2,... р). Для реализации этого процесса необходимо использовать р скрытых нейронов радиального типа и задать такую функцию отображения F(x), для которой выполняется условие интерполяции
F(xi)=yi. | (1.8) |
Использование р скрытых нейронов, соединяемых связями с весами wi с выходными линейными нейронами, означает формирование выходных сигналов сети путем суммирования взвешенных значений соответствующих базисных функций. Рассмотрим радиальную сеть с одним выходом и р обучающими парами (xi,yi). Примем, что координаты каждого из p центров узлов сети определяются одним из векторов xi. В этом случае взаимосвязь между входными и выходными сигналами сети может быть определена системой уравнений, линейных относительно весов w.
Если предположить, что параметры функции Гаусса, смещение с и радиус δ фиксированы, то есть каким то образом уже определены, то задача нахождения весов решается методами линейной алгебры. Этот метод называется методом псевдообратных матриц и он минимизирует средний квадрат ошибки. Суть этого метод такова. [3]
Находится интерполяционная матрица H
![]() | (1.9) |
На следующем этапе вычисляется инверсия произведения матрицы H на транспонированную матрицу HT
![]() | (1.10) |
Окончательный результат, матрица весов, рассчитывается по формуле
![]() | (1.11) |
Полученная архитектура радиальных сетей имеет структуру, аналогичную многослойной структуре сигмоидальных сетей с одним скрытым слоем. Роль скрытых нейронов в ней играют базисные радиальные функции, отличающиеся своей формой от сигмоидальных функций. Несмотря на отмеченное сходство, сети этих типов принципиально отличаются друг от друга.
Радиальная сеть имеет фиксированную структуру с одним скрытым слоем и линейными выходными нейронами, тогда как сигмоидальная сеть может содержать различное количество слоев, а выходные нейроны бывают как линейными, так и нелинейными. Используемые радиальные функции могут иметь весьма разнообразную структуру.
Нелинейная радиальная функция каждого скрытого нейрона имеет свои значения параметров с i и si, тогда как в сигмоидальной сети применяются, как правило, стандартные функции активации c одним и тем же для всех нейронов параметром β. Аргументом радиальной функции является эвклидово расстояние образца x от центра с i, а в сигмоидальной сети это скалярное произведение векторов wTx.
Еще большие отличия между этими сетями можно заметить при детальном сравнении их структур. Сигмоидальная сеть имеет многослойную структуру, в которой способ упорядочения нейронов повторяется от слоя к слою. Каждый нейрон в ней выполняет суммирование сигналов с последующей активацией.
Структура радиальной сети несколько иная. На рисунке 1.2 изображена подробная схема сети РБФ с радиальной функцией при классическом понимании эвклидовой метрики. Из рисунка видно, что первый слой составляют нелинейные радиальные функции, параметры которых (центры с i и коэффициенты si) уточняются в процессе обучения. Первый слой не содержит линейных весов в понимании, характерном для сигмоидальной сети.
1.3.3 Нелинейная модель расчёта параметров радиальной базисной функции
Если предыдущее предположение о фиксированных параметрах функции активации не выполняется, то есть помимо весов необходимо настроить параметры активационной функции каждого нейрона (смещение функции и ее радиус), задача становится нелинейной. Решать ее приходится с использованием итеративных численных методов оптимизации, например, градиентных методов.
Расположение центров должно соответствовать кластерам, реально присутствующим в исходных данных. Рассмотрим два наиболее часто используемых метода.
Выборка из выборки. В качестве центров радиальных элементов берутся несколько случайно выбранных точек обучающего множества. В силу случайности выбора они "представляют" распределение обучающих данных в статистическом смысле. Однако, если число радиальных элементов невелико, такое представление может быть неудовлетворительным.
Алгоритм K-средних. Этот алгоритм стремится выбрать оптимальное множество точек, являющихся центроидами кластеров в обучающих данных. При K радиальных элементах их центры располагаются таким образом, чтобы:
- каждая обучающая точка "относилась" к одному центру кластера и лежала к нему ближе, чем к любому другому центру;
- каждый центр кластера был центроидом множества обучающих точек, относящихся к этому кластеру.
После того, как определено расположение центров, нужно найти отклонения. Величина отклонения (ее также называют сглаживающим фактором) определяет, насколько "острой" будет гауссова функция.
Если эти функции выбраны слишком острыми, сеть не будет интерполировать данные между известными точками и потеряет способность к обобщению. Если же гауссовы функции взяты чересчур широкими, сеть не будет воспринимать мелкие детали.
На самом деле сказанное - еще одна форма проявления дилеммы переобучения и недообучения. Как правило, отклонения выбираются таким образом, чтобы колпак каждой гауссовой функций захватывал "несколько" соседних центров. Для этого имеется несколько методов:
- явный (отклонения задаются пользователем);
- изотропный (отклонение берется одинаковым для всех элементов и определяется эвристически с учетом количества радиальных элементов и объема покрываемого пространства);
- K-средних (отклонение каждого элемента устанавливается (индивидуально) равным среднему расстоянию до его «K ближайших соседей», тем самым отклонения будут меньше в тех частях пространства, где точки расположены густо, - здесь будут хорошо учитываться детали, - а там, где точек мало, отклонения будут большими и будет производится интерполяция) [5].
В последнее время получили распространение методы обучения нейронных сетей с радиальными базисными функциями, в которых используется сочетание генетических алгоритмов для подбора параметров активационных функций и методов линейной алгебры для расчета весовых коэффициентов выходного слоя по формуле 1.11. То есть на каждой итерации поиска генетический алгоритм самостоятельно выбирает в каких точках пространства входных сигналов сети разместить центры активационных функций нейронов скрытого слоя и назначает для каждой из них ширину окна. Для полученной таким образом совокупности параметров скрытого слоя по формуле 1.11 вычисляются веса выходного слоя и получающаяся при этом ошибка аппроксимации, которая служит для генетического алгоритма индикатором того, насколько плох или хорош данный вариант. На следующей итерации генетический вариант отбросит «плохие» варианты и будет работать с наборами, показавшими наилучшие результаты на предыдущей итерации. [3]
Люди решают сложные задачи распознавания образов с обескураживающей легкостью. Двухлетний ребенок без видимых усилий различает тысячи лиц и других объектов, составляющих его окружение, несмотря на изменение расстояния, поворота, перспективы и освещения.
Может показаться, что изучение этих врожденных способностей должно сделать простой задачу разработки компьютера, повторяющего способности человека к распознаванию. Ничто не может быть более далеким от истины. Сходство и различия образов, являющиеся очевидными для человека, пока ставят в тупик даже наиболее сложные компьютерные системы распознавания.
Таким образом, бесчисленное количество важных приложений, в которых компьютеры могут заменить людей в опасных, скучных или неприятных работах, остаются за пределами их текущих возможностей.
Компьютерное распознавание образов является больше искусством; наука ограничена наличием нескольких методик, имеющих относительно небольшое использование на практике. Инженер, конструирующий типовую систему распознавания образов, обычно начинает с распознавания печатного текста. Эти методы часто являются неадекватными задаче, и старания разработчиков быстро сводятся к разработке алгоритмов, узко специфичных для данной задачи.
Обычно целью конструирования систем распознавания образов является оптимизация ее функционирования над выборочным набором образов. Очень часто разработчик завершает эту задачу нахождением нового, приблизительно похожего образа, что приводит к неудачному завершению алгоритмов. Этот процесс может продолжаться неопределенно долго, никогда не приводя к устойчивому решению, достаточному для повторения процесса восприятия человека, оценивающего качество функционирования системы.
К счастью, мы имеем существующее доказательство того, что задача может быть решена: это система восприятия человека. Учитывая ограниченность успехов, достигнутых в результате стремления к собственным изобретениям, кажется вполне логичным вернуться к биологическим моделям и попытаться определить, каким образом они функционируют так хорошо. Очевидно, что это трудно сделать по нескольким причинам. Во-первых, сверхвысокая сложность человеческого мозга затрудняет понимание принципов его функционирования. Трудно понять общие принципы функционирования и взаимодействия его приблизительно 1011 нейронов и 1014 синаптических связей. Кроме того, существует множество проблем при проведении экспериментальных исследований. Микроскопические исследования требуют тщательно подготовленных образцов (заморозка, срезы, окраска) для получения маленького двумерного взгляда на большую трехмерную структуру. Техника микропроб позволяет провести исследования внутренней электрохимии узлов, однако трудно контролировать одновременно большое количество узлов и наблюдать их взаимодействие. Наконец, этические соображения запрещают многие важные эксперименты, которые могут быть выполнены только на людях. Большое значение имели эксперименты над животными, однако животные не обладают способностями человека описывать свои впечатления.
Несмотря на эти ограничения, многое было изучено благодаря блестяще задуманным экспериментам. Например, в [1] описан эксперимент, в котором котята выращивались в визуальном окружении, состоящем только из горизонтальных черных и белых полос. Известно, что определенные области коры чувствительны к углу ориентации, поэтому у этих котов не развились нейроны, чувствительные к вертикальным полосам. Этот результат наводит на мысль, что мозг млекопитающих не является полностью «предустановленным» даже на примитивном уровне распознавания ориентации линий. Напротив, он постоянно самоорганизуется, основываясь на опыте.
На микроскопическом уровне обнаружено, что нейроны обладают как воозбуждающими, так и тормозящими синапсами. Первые стремятся к возбуждению нейрона; последние подавляют его возбуждение (см. приложение А). Это наводит на мысль, что мозг адаптируется либо изменением воздействия этих синапсов, либо созданием или разрушением синапсов в результате воздействия окружающей среды. Данное предположение остается пока гипотезой с ограниченным физиологическим подтверждением. Однако исследования, проведенные в рамках этой гипотезы, привели к созданию цифровых моделей, некоторые из которых показывают замечательные способности к адаптивному распознаванию образов.
Дата публикования: 2014-10-18; Прочитано: 3744 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!