Глубокое обучение с подкреплением, Теория и практика на языке Python, Грессер Л., Кенг В., 2022.
Глубокое обучение с подкреплением (глубокое RL) сочетает в себе два подхода к машинному обучению. В ходе такого обучения виртуальные агенты учатся решать последовательные задачи о принятии решений. За последнее десятилетие было много неординарных достижений в этой области — от однопользовательских и многопользовательских игр, таких как го и видеоигры Atari и Dota 2, до робототехники. Эта книга — введение в глубокое обучение с подкреплением, уникально комбинирующее теорию и практику. Авторы начинают повествование с базовых сведений, затем подробно объясняют теорию алгоритмов глубокого RL, демонстрируют их реализации на примере программной библиотеки SLM Lab и напоследок описывают практические аспекты использования глубокого RL. Руководство идеально подойдет как для студентов, изучающих компьютерные науки, так и для разработчиков программного обеспечения, которые знакомы с основными принципами машинного обучения и знают Python.
REINFORCE.
В этой главе представлен первый из описываемых в книге алгоритмов, REINFORCE. Алгоритм REINFORCE был предложен Рональдом Дж. Вильямсом в 1992 году и описан им в статье Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning1. Алгоритм строит параметризированную стратегию, которая получает вероятности действий по состояниям среды. Агенты непосредственно используют эту стратегию, чтобы действовать в среде. Основной смысл заключается в том, что во время обучения действия, которые приводят к хорошим результатам, должны иметь большую вероятность — они положительно подкрепляются. В противовес этому действия, приводящие к плохим результатам, должны иметь меньшую вероятность. Если обучение успешно, то за несколько итераций распределение полученных стратегией вероятностей действий станет таким, которое приводит к повышению производительности в среде. Вероятности действий изменяются в соответствии с градиентом функции стратегии, в связи с чем REINFORCE известен как алгоритм градиента стратегии.
Краткое содержание.
Часть I.Алгоритмы, основанные на стратегиях и полезностях.
Часть II.Комбинированные методы.
Часть III.Практика.
Часть IV.Проектирование сред.
Приложения.
Купить .
Теги: Грессер :: Кенг :: книги по программированию :: программирование :: Python
Смотрите также учебники, книги и учебные материалы:
- Грокаем глубокое обучение с подкреплением, Моралес М., 2023
- Грокаем алгоритмы искусственного интеллекта, Харбанс Р., 2023
- Программирование для Android на Kotlin, Гриффитс Д.
- Глубокое обучение, Легкая разработка проектов на Python, Вейдман С., 2021
- Глубокое обучение с fastai и PyTorch, Минимум формул, минимум кода, максимум эффективности, Ховард Д., Гуггер С., 2022
- Глубокое обучение на Python, Франсуа Ш., 2023
- Глубокое обучение, Легкая разработка проектов на Python, Вейдман С., 2021
- Гид по Computer Science, расширенное издание, Спрингер В., 2021