01
29
动手学深度学习 动手学深度学习
写在之前 自动求导 计算图可以显示的去构造 也可以隐式构造 自动求导的两种方式:正向or反向 数据集训练数据集 验证数据集 测试数据集 NOTE: 不要把验证数据集合测试数据集弄混 模型的选择以及过拟合和欠拟合
13
强化学习的数学原理 强化学习的数学原理
写在前面—— ——对于强化学习的建议 不要有追求速成的想法 对于自己的目标要分类合理的时间 Introduction经典书籍 课程目的 贝尔曼公式 通过计算state value来评价策略的好坏
2023-01-13
12
如何做一名合格的研究生? 如何做一名合格的研究生?
摘自大鱼机器人 摘要:本文是台湾王汎森院士一篇演讲稿,对所有读研或考研同学非常有意义值得赏析,小编也是在网上无意之中看到的,觉得讲的非常好,也解决了我心中的很多疑惑,所以在此分享出来,与各位即将考研或是准研究生们共勉。硕士必读、留学力争
12
强化学习笔记 强化学习笔记
Reward相关 reward设置成[-1, 1]是normalized之后的结果,一般reward的设置是根据reward function或是根据一些经验值,比如在一些经典的迷宫场景中,reward的设置一般是一步-1的reward,作
2023-01-12
08
实用脚本 实用脚本
Window批量删除文件名前缀在需要删除前缀的文件的同级目录下,新建一个记事本 .txt 文件,然后将下面的代码复制到记事本里面,把“需要替换的字符串”改为你想删除的文件名前缀。然后保存为.txt文件,再把txt修改为bat批处理文件,双击
2023-01-08
07
Tensorflow2学习笔记 Tensorflow2学习笔记
环境tensorflow2.1 课程连接 课程介绍 本视频是新冠疫情期间,为北京大学软件与微电子学院选修《软硬件协同设计方法》的33位同学推送的录播课。6小时掌握Tensorflow2搭建优化神经网络的方法,以通俗精炼的语言,授人以渔。
2023-01-07
01
动手学强化学习 动手学强化学习
强化学习简介强化学习里面一直以来就是value based和policy based两路方法,它们各有优劣。 Value based 方法强调让机器知道什么state或者state-action pair是好的,什么是坏的。例如Q-lear
2023-01-01
01
01
信息熵 信息熵
本文地址,转载自LR-bee 详细可内容可点击下面参考文章 参考1 参考2 一、自信息自信息:可以理解表示某一事件发生时所带来的信息量的多少,当事件发生的概率越大,则自信息越小,或者可以这样理解:某一事件发生的概率非常小,但是实际上却发生了
2023-01-01