1.背景 现在笔者来讲一个利用Q-learning 方法帮助酒鬼回家的一个小例子, 例子的环境是一个一维世界, 在世界的右边是酒鬼的家。这个酒鬼因为喝多了,根本不记得回家的路,只是根据自己的直觉一会向左走、一会向右走。酒…
分类:强化学习
【强化学习笔记】关于一篇对话系统文献综述的读后感
上周导师安排了一个任务——读一下这篇文章 出处:A Survey on Dialogue Systems: Recent Advances and New Frontiers 文章地址: https://arxiv.or…