Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Способность нейронной сети к обобщению



Одно из важнейших свойств НС – это способность к обобщению полученных знаний. Сеть натренированная на обучающей выборке, генерирует ожидаемые результаты при подаче на ее вход данных, которые не участвовали в обучении. Разделение данных на обучающее и тестовое подмножества представлено на рис.1

R – все множество данных, которые подчиняются правилу R; L – обучающее подмножество; G – тестовое подмножество; V - контрольное подмножество, которое используется для проверки качества обучения сети и решения проблемы переобучения сети

Рисунок 1.

Способность отображения сетью элементов L (обучающее подмножество) можно считать показателем накопления обучающих данных.

Способность распознавания данных, входящих в G (тестовое подмножество) и не используемых при обучении НС характеризует возможность обобщения знаний или генерализации знаний.

Данные, входящие в G (тестовое подмножество) и в L (обучающее подмножество) должны быть типичными элементами множества R. В обучающем подмножестве не должно быть уникальных данных, свойства которых отличаются от ожидаемых значений.

Феномен обобщения возникает вследствие большого количества комбинаций входных данных, которые могут кодироваться в сети с N –входами.

Подбор весов в процессе обучения имеет целью найти такую комбинацию их значений, которая наилучшим образом воспроизводила бы последовательность ожидаемых обучающих пар (Xk, Dk). При этом наблюдается тесная связь между количеством весов сети и количеством примеров обучающей выборки.

Если бы целью было обучения было запоминание всех примеров обучающей выборки, то их количество могло быть равным числу весов. В таком случае каждый вес соответствовал бы единственной обучающей паре. Но такая сеть не обладала бы свойством обобщения.

Для обретения способности обобщать данные сеть должна быть натренирована на избыточном множестве данных, поскольку тогда веса будут адаптироваться не к уникальным выборкам, а к их усредненным совокупностям.

Следовательно, для усиления способности к обобщению необходимо не только оптимизировать структуру сети в направлении ее минимизации, но и оперировать достаточно большим объемом обучающих данных.

Истинная цель обучения состоит в таком подборе архитектуры и параметров сети, которые обеспечат минимальную погрешность распознавания тестового подмножества, не участвующего в процессе обучения. Эту погрешность будем называть ЕG(W).

Со статистической точки зрения погрешность обобщения зависит от уровня погрешности обучения ЕL(W) и от доверительного интервала ε.

ЕG(W) =< ЕL(W) + ε (P/h, ЕL) (1)

ε зависит от уровня погрешности обучения ЕL(W) и от отношения количества обучающих пар Р к фактическому значению h, называемого мерой Вапника –Червоненкиса и обозначаемого VCdim.

Эта мера VCdim отражает уровень сложности НС и связана с количеством содержащихся в ней весов. Параметр ε уменьшается по мере возрастания количества обучающих пар к уровню сложности сети.

Поэтому обязательным условием хороших способностей к обобщению считается грамотное определение меры Вапника –Червоненкиса для сети заданной структуры.

Точная методика определения меры Вапника –Червоненкиса не разработана. Известно, что мера зависит от количества синаптических весов.

Верхнюю и нижнюю границы меры можно определить в интервале

2 [ K/2] *N =<VCdim < 2*Nw (1+lgNn ) (2)

где [ ] –целая часть числа;

N –размерность входного вектора;

K – количество нейронов скрытого слоя;

Nw – общее количество весов сети;

Nn ­- общее количество нейронов сети.

Из формулы (2) следует:

- нижняя граница диапазона приблизительно равна числу весов, связывающих входной и скрытый слои,

- верхняя граница превышает двукратное суммарное количество всех весов сети.

В связи с невозможностью точного определения меры VCdim в качестве её приближенного значения используется общее количество весов НС.

Таким образом, на погрешность обобщения оказывает влияние отношение количества обучающих выборок к количеству весов сети.

Небольшой объём ОВ при фиксированном количестве весов вызывает хорошую адаптацию сети к его элементам, однако не усиливает способности к обобщению, т.к. в процессе обучения наблюдается относительное превышение числа подбираемых параметров (весов) над количеством пар фактических и ожидаемых сигналов сети.

Фактическая задача аппроксимации подменяется задачей приближенной интерполяции.

Высокие результаты обобщения достигаются в случае, когда количество ОВ в несколько раз превышает меру VCdim.

Иллюстрация. НС, скрытый слой 80 нейронов на основе адаптировала свои выходные сигналы с нулевой погрешностью обучения. Минимизация этой погрешности на слишком малом (относительно количества весов) количестве ОВ спровоцировала случайный характер этих весов, что при переходе к текстовым наборам стало причиной значительных отклонений фактических y от ожидаемых d.

Уменьшение количества скрытых нейронов до 5 при неизменном объёме ОВ позволило обеспечить и малую погрешность обучения и высокий уровень обобщения сети.

Дальнейшее уменьшение количества скрытых нейронов может привести к потере НС способности восстанавливать обучающие данные, т.е. к слишком большой погрешности ЕL(W).

На практике тренируют несколько НС с разным количеством скрытых нейронов при допустимой погрешности обучения.





Дата публикования: 2014-10-18; Прочитано: 1723 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.007 с)...