Лекция 10

Самообучаемые системы с самомодифицирующимися правилами

Одним из перспективных подходов к разработке самонастраивающейся СУ является методика самомодифицирующихся правил (СМП), описанная в работах Шмидхубера. Методика позволяет реализовать самообучение на основе примитивных алгоритмов обучения в режиме реального времени. При этом, правилами управления называют функцию управляющих воздействий на объект управления, определенную на пространстве состояний среды и состояний объекта. Правилами самообучения называют такие правила управления, которые служат адаптации СУ.

Методика самомодифицирующихся правил

Модифицируемые компоненты самообучаемой СУ называются правилами. Алгоритм, который модифицирует набор правил, называется алгоритмом обучения. Если в таком алгоритме существуют правила, которые изменяют сам набор правил, то мы будем называть это самообучением. Необходимость в таких правилах появляется, когда, накапливая опыт, СУ пытается улучшить свою деятельность. Чтобы заставить набор правил, то есть СМП, производить все лучшее и лучшее изменение самих себя, используется алгоритм истории успеха (АИУ), который в своей основе использует обучение с подкреплением. Во время работы СУ, в моменты времени, вычисленные формулой временных тегов СМП, выполняется алгоритм АИУ. Алгоритм АИУ использует рекурсивный поиск для отмены таких предыдущих СМП-сгенерированных СМП-изменений, которые снижали подкрепление (рассчитанные до текущего вызова АИУ – это оценка долговременных эффектов СМП-изменений, формирующая базу для дальнейших СМП-изменений). СМП-изменения, которые были обработаны алгоритмом АИУ, представляют долговременную историю успеха (далее ДИУ). При следующем вызове АИУ, на базе ДИУ формируются дополнительные СМП-изменения. Благодаря использованию самомодификаций СМП/АИУ - обучаемые СУ успешно выполняют задачи управления в частично наблюдаемых средах (ЧНС).

Методика СМП использует в своем ядре принцип алгоритмического сдвига бритвы Оккама и поиск по Левину.

Под словосочетанием «обучение обучению» будем понимать следующую обучаемую систему, которая:

-         оценивает, сравнивает методы обучения и выбирает лучший из них;

-         вычисляет оценку «правильности» предыдущего обучения и успешно проецирует его на последующее обучение;

-         использует эту оценку для выбора предпочтительной стратегии обучения и отбраковки остальных стратегий.

Методика СПМ не предполагается, как имеющая свойство обучения обучению, если она улучшается только за счет действий выбранных случайным образом, если она не измеряет эффекты раннего обучения и дальнейшего обучения, или если она не имеет явных методов, разработанных для использования подобных измерений для выбора полезных стратегий обучения.

Базовый алгоритм самомодифицирующихся правил

Рассмотрим базовый алгоритм СМП. Обучаемая система живет от времени 0 до времени T в неизвестной, на момент времени 0, среде E. Система имеет состояние S и первонааотные правила СМП0. S и СМП являются изменяемыми. Между временем 0 и T, обучаемая система повторяет снова и снова следующий цикл (A – возможные действия):

выбрать и выполнить

<< Предыдущая лекция || Следующая лекция >>

PhD Shumkov E. site

Лекция 1. Основы нейросетей. Биологические нейронные сети.
Лекция 2. Персептрон. Многослойный персептрон.
Лекция 3. Алгоритм обратного распространения ошибки.
Лекция 4. Ускорение обучения. Обучение без учителя
Лекция 5. Сеть Кохонена. Звезды Гроссберга
Лекция 6. Сети Хопфилда и Хемминга
Лекция 7. Генетические алгоритмы
Лекция 8. Обучение с подкреплением
Лекция 9. Прогнозирование с помощью нейронных сетей
Лекция 10. Самообучаемые системы с самомодифицирующимися правилами
Нейросетевая топология Внутренний учитель



Рейтинг@Mail.ru
 
 
Апшеронск Спорт VBA Форекс Сочи-2014 Нейросети Студентам
Связь с Администратором сайта, E-mail: apsheronka@mail.ru
Апшеронск, Краснодарский край

Размещение рекламы на сайте
Карта сайта

При перепечатке материалов сайта http://apsheronsk.bozo.ru - обязательная активная гиперссылка на сайт!