Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
При фиксированном объёме статистических данных качество аппроксимации стохастических зависимостей с помощью непараметрической оценки регрессии существенно зависит от выбранных коэффициентов размытости ядерных функций.
Определение конкретных значений коэффициентов размытости обычно осуществляется из условия минимума эмпирических критериев:
средняя ошибка аппроксимации
;
среднеквадратическая ошибка аппроксимации
; (3.12)
средняя относительная ошибка аппроксимации
; (3.13)
среднеквадратическая относительная ошибка аппроксимации
.
В преимущество критерия (3.13) состоит в том, что умножив его величину на 100%, получим ошибку аппроксимации в процентном соотношении с диапазоном изменения . Иначе говоря, значение критерия не зависит от единиц измерения . Основной его недостаток заключается в том, что если может принимать нулевые значения либо близкие к ним возникает неоднозначность и значения критерия могут значительно превышать 100%.
В отличие от (3.13) критерий (3.12) может быть использован в любых ситуациях, но его значения зависят от единиц измерения , что затрудняет количественную оценку ошибки аппроксимации.
Метод скользящего экзамена. Выбор оптимального коэффициента размытости осуществляется по элементам обучающей выборки. Идея метода заключается в том, что последовательно каждая -я точка исходной обучающей выборки принимается в качестве контрольной ситуации с последующим исключением её из процесса обучения. Рассмотрим данный процесс на примере критерия (3.12)
. (3.14)
Условие позволяет исключить -ю контрольную точку из процесса обучения. При этом оптимальный набор коэффициентов размытости будет соответствовать минимальному значению критерия
.
Для упрощения задачи выбора оптимального коэффициента размытости можно воспользоваться методикой представленной в пункте 2.2.2.2., что позволяет свести задачу оптимизации к нахождению всего лишь одного параметра .
Рассчитаем по обучающей выборки оценки среднеквадратического отклонения
,
которые характеризуют диапазон изменения признаков.
Сопоставим каждому коэффициенту размытости произведение , где неопределённый коэффициент будет общим для каждого признака. В результате получим
.
При этом среднеквадратический критерий (3.14) будет иметь вид
. (3.15)
Зависимость эмпирического критерия от коэффициента размытости представлена на рис. 3.4.
Рис. 3.4. Зависимость ошибки аппроксимации (3.12) от величины коэффициента размытости для одномерного случая ( - скаляр).
Кривая 1 соответствует объёму обучающей выборки ,
кривая 2 - , кривая 3 - .
Метод деления выборки на контрольную и обучающую. Идея метода состоит в декомпозиции исходной обучающей выборки на контрольную и обучающую выборки
где - объём обучающей выборки, а - контрольной.
При этом среднеквадратический критерий (3.12) будет иметь вид
.
Данный критерий характеризует среднеквадратическое расхождение между строящейся по выборке непараметрической регрессией и элементами контрольной выборки .
Рассматриваемый метод поиска оптимального коэффициента размытости наиболее удобно применять при достаточно больших объёмах обучающей выборки (более 200 наблюдений на каждый признак ), когда исследователь может пожертвовать частью исходной выборки и сформировать контрольную .
Метод случайного поиска коэффициентов размытости. Данный метод основан на случайном выборе оптимального вектора из множества альтернатив, которое генерируется с использованием датчиков случайных величин.
Запишем непараметрическую оценку регрессии (3.5) в виде
. (3.16)
Из вычислительных экспериментов установлено, что коэффициенты , в выражении (3.16) принадлежит интервалу .
Для генерации множества векторов воспользуемся датчиками случайных величин с равномерными законами распределения на интервале
,
где - случайная величина с равномерным законом распределения, - величина близкая к нулю (например ), а можно принять равным трём. В результате данной операции получим выборку , которую при можно отобразить на рис. 3.5.
Рис. 3.5. Выборка векторов при .
Последовательно подставляя полученные вектора в среднеквадратический критерий
,
получим выборку и выберем тот вектор , при котором будет минимальна. В окрестности генерируются новые вектора и находится наилучший на данном этапе набор параметров . Описанный процесс продолжается до тех пор пока изменения критерия будут незначительными.
Рандомизированный метод оптимизации непараметрической оценки регрессии. Существующий парадокс традиционных методов идентификации стохастических моделей состоит в сопоставлении случайной выборке наблюдений переменных изучаемого объекта конкретного набора параметров модели оптимальных в смысле минимума эмпирической ошибкиаппроксимации. Рассмотрим принципиально новый рандомизированный подход оптимизации непараметрических алгоритмов, основанный на процедуре случайного выбора коэффициентов размытости ядерных функций из некоторой генеральной совокупности с определённым законом распределения. В этом случае непараметрическая оценка регрессии принимает вид
,
где коэффициент размытости является случайной величиной с плотностью вероятности и соответствует наблюдению .
Из анализа асимптотических свойств непараметрической регрессии следует, что нижняя граница области изменения коэффициента размытости с ростом объёма выборки стремится к нулю. Отсюда возникает идея оптимизировать непараметрическую оценку регрессии по виду закона распределения коэффициентов размытости и правой границе . Для генерации коэффициентов размытости воспользуемся датчиками случайных величин известных законов распределения, например (рис. 3.6):
Нормальный закон .
Равномерный закон
Показательный
Рис. 3.6. Графики плотностей вероятности в диапазоне . Кривая 1 соответствует нормальному закону распределения при , ; кривая 2 – равномерному закону при , ; кривая 3 и 4 – показательным законам для , при .
Воспользуемся результатами раздела 2.5. и сформируем датчики случайных величин введённых законов распределения:
- нормальный закон , где параметр распределения ;
- равномерный закон распределения на интервале ;
- показательный закон распределения на интервале .
Здесь случайная величина с равномерным законом распределения.
При использовании датчика случайных значений коэффициентов размытости с нормальным законом распределения задача оптимизации непараметрической оценки регрессии сводится к нахождению оптимальных значений математического ожидания коэффициента размытости и его среднеквадратического отклонения . Для датчика с равномерным законом необходимо определить оптимальную длину интервала , ( и ) и его центр, а при использовании датчика с показательным законом необходимо эффективно оценить правую границу и наилучшую степень .
При использовании датчика случайных чисел, например, с показательным законом распределения при непараметрическая оценка регрессии имеет вид
, (3.17)
где оптимальный набор параметров определяется из эмпирической оценки среднеквадратического отклонения
.
Пример применения непараметрической оценки регрессии при восстановлении стохастической зависимости. Для иллюстрации эффективности непараметрической оценки регрессии (3.4) в задачах восстановления стохастических зависимостей (3.1) проведён вычислительный эксперимент с использованием функции
. (3.18)
Методика формирования исходных данных:
1. Случайная величина генерировалась в диапазоне с равномерным законом распределения.
2. Значения функции получались путём подстановки в полином (3.18)
.
3. Полученная выборка зашумлялась, накладывая на значения восстанавливаемой функции аддитивную относительную помеху
,
где - уровень шума, - случайная величина с равномерным законом распределения.
Используя непараметрическую оценку регрессии (3.4) и метод скользящего экзамена при её оптимизации по данным восстанавливалась зависимость рис. 3.7.
Рис. 3.7. Иллюстрация восстановления стохастической зависимости (3.1) с помощью непараметрической регрессии(3.4) при , .
Дата публикования: 2015-01-23; Прочитано: 360 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!