Глубокое обучение с подкреплением, Теория и практика на языке Python, Грессер Л., Кенг В., 2022

По кнопке выше «Купить бумажную книгу» можно купить эту книгу с доставкой по всей России и похожие книги по самой лучшей цене в бумажном виде на сайтах официальных интернет магазинов Лабиринт, Озон, Буквоед, Читай-город, Литрес, My-shop, Book24, Books.ru.

По кнопке «Купить и скачать электронную книгу» можно купить эту книгу в электронном виде в официальном интернет магазине «ЛитРес», и потом ее скачать на сайте Литреса.

По кнопке «Найти похожие материалы на других сайтах» можно искать похожие материалы на других сайтах.

On the buttons above you can buy the book in official online stores Labirint, Ozon and others. Also you can search related and similar materials on other sites.

Ссылки на файлы заблокированы по запросу правообладателей.

Links to files are blocked at the request of copyright holders.


Глубокое обучение с подкреплением, Теория и практика на языке Python, Грессер Л., Кенг В., 2022.
 
Глубокое обучение с подкреплением (глубокое RL) сочетает в себе два подхода к машинному обучению. В ходе такого обучения виртуальные агенты учатся решать последовательные задачи о принятии решений. За последнее десятилетие было много неординарных достижений в этой области — от однопользовательских и многопользовательских игр, таких как го и видеоигры Atari и Dota 2, до робототехники. Эта книга — введение в глубокое обучение с подкреплением, уникально комбинирующее теорию и практику. Авторы начинают повествование с базовых сведений, затем подробно объясняют теорию алгоритмов глубокого RL, демонстрируют их реализации на примере программной библиотеки SLM Lab и напоследок описывают практические аспекты использования глубокого RL. Руководство идеально подойдет как для студентов, изучающих компьютерные науки, так и для разработчиков программного обеспечения, которые знакомы с основными принципами машинного обучения и знают Python.

Глубокое обучение с подкреплением, Теория и практика на языке Python, Грессер Л., Кенг В., 2022


REINFORCE.
В этой главе представлен первый из описываемых в книге алгоритмов, REINFORCE. Алгоритм REINFORCE был предложен Рональдом Дж. Вильямсом в 1992 году и описан им в статье Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning1. Алгоритм строит параметризированную стратегию, которая получает вероятности действий по состояниям среды. Агенты непосредственно используют эту стратегию, чтобы действовать в среде. Основной смысл заключается в том, что во время обучения действия, которые приводят к хорошим результатам, должны иметь большую вероятность — они по­ложительно подкрепляются. В противовес этому действия, приводящие к плохим результатам, должны иметь меньшую вероятность. Если обучение успешно, то за несколько итераций распределение полученных стратегией вероятностей действий станет таким, которое приводит к повышению производительности в среде. Веро­ятности действий изменяются в соответствии с градиентом функции стратегии, в связи с чем REINFORCE известен как алгоритм градиента стратегии.

Краткое содержание.
Часть I.Алгоритмы, основанные на стратегиях и полезностях.
Часть II.Комбинированные методы.
Часть III.Практика.
Часть IV.Проектирование сред.
Приложения.

Купить .
Дата публикации:






Теги: :: :: :: ::


Следующие учебники и книги:
Предыдущие статьи:


 


 

Книги, учебники, обучение по разделам




Не нашёл? Найди:





2024-11-22 00:17:20