September 18, 2022
RL强化学习
12import gymimport random
1234567#envenv_name = 'CartPole-v1'env_name='FrozenLake8x8-v1'env = gym.make(env_name)print(" ...
Read more
September 18, 2022
GitHub使用指南
介绍1. Git & GitHub的发展历史
Linux 之父 Linus 在 1991 年创建开源的 Linux 操作系统之后,Linus 花了十天时间用 C 语言写好了一个开源的版本控制系统(Version Control System),就是著名的 Git。
2007 年旧金 ...
Read more
September 18, 2022
Keras深度学习
Flask
介绍Iris 鸢尾花数据集是一个经典数据集,在统计学习和机器学习领域都经常被用作示例。数据集内包含 3 类共 150 条记录,每类各 50 个数据,每条记录都有 4 项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度,可以通过这4个特征预测鸢尾花卉属于(iris-setosa, iris-ver ...
Read more
September 18, 2022
RL强化学习
介绍问题:e-greedy总是走巾cliff的问题?
off-policy: 学习中使用的策略和最后估算的策略不同(使用non-optimal policy, 估算 optimal policy),学一套 做一套
grid world with cliff:
0
1
2
3
...
Read more
September 18, 2022
RL强化学习
介绍grid world with cliff:
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
s
cliff
cliff
cliff
goal
问题: 给定策略 Π = a(s) , 相对应的Q(s,a(s)) ...
Read more
September 18, 2022
RL强化学习
介绍state evaluation: 好不好? 有多好?
policy learning:
依据我的行动策略,这个状态有多好?
最佳的行动策略是什么?optimal control problem
grid world:路网
goal
1
2
3
4
5
6
7 ...
Read more
September 18, 2022
Keras深度学习
介绍一条新高速路:
你每天希望尽快开车到家,原来的路需要60分钟,现在有一条新建的路,需要先从公司走一条比较窄的小路才能上高速,如何判断新路值不值得走
转化为强化学习的问题State evaluation目标:走新路总时间比老路少
1. state(s):
小路,高速路
2. rewar ...
Read more
September 18, 2022
Keras深度学习
介绍巴普洛夫的狗:摇铃给食物
被植入恐惧记忆的老鼠:老鼠走进一个房间,给电击,加强学习后形成恐怖记忆。
转化为强化学习的问题:
转化为强化学习的问题巴普洛夫的狗:摇铃给食物, 下次摇铃,狗流口水
1. 巴普洛夫的狗:
1. state(s):
铃
食物
Conditioned S ...
Read more