① dqn学起来很难吗
不是很难。
DQN引入了经验池,DQN利用到了Q-learning是off-policy的特性,behavior-policy在探索或行动获取经验后会将经存储到经验池中,一条经验可以由(s,a,r,s’)来表示。
DQN≈Q-learning+神经网络,如果只是简单的结合将会带来两个问题,神经网络的样本之间相互独立,互不关联,而强化学习输入的状态是相互关联的,引入非线性函数,使用神经网络来近似Q表格,训练结果可能不收敛。
② 深度学习和深度强化学习的区别
强化学习和深度学习是两种技术,只不过深度学习技术可以用到强化学习上,这个就叫深度强化学习.
③ 请教:吸收计量和计量当量
剂量学量:比释动能、照射量、比转换能、吸收剂量。放射性量:活度、空气比释动能率常数。辐射防护的基本防护量:剂量当量(ICRP60号报告后推荐使用当量剂量)、当量剂量、有效剂量。防护量无法直接测量,能测量的是剂量学量和放射性量。辅助的防护量:待积当量剂量、待积有效剂量、剂量负担、集体有效剂量。用于外照射防护的实用量:周围剂量当量、定向剂量当量、个人剂量当量。 有效剂量一般是用在低剂量范围内的,主要是为管理者服务的,用来控制随机性效应的发生几率。在可能引发组织反应(确定性效应)的高剂量范围内,必须估计吸收剂量并考虑适当的相对生物效应,来评估辐射效应。例如,在前苏联的切尔诺贝利事故中,堆芯附近和核岛内的工作人员所受剂量评估时,就是考虑确定性效应的情况。ICRU定义的实用剂量当量量,是可间接测量的量,辐射仪表是用这些量校准的,在日常监测中这些剂量当量可以认为有足够的精度分别估计有效剂量和皮肤剂量,尤其是数值小于防护限值时。在核电正常运行时,仪表的指示数值通常小于防护限值,这是考虑的是随机性效应的情况。这些量都是针对参考人而言的,不是针对独立的单个人。因为个体差异性是存在的,这一点很重要。而且,随机性效应只是一个几率的问题。在所受剂量越高,癌症发病率的概率越高,但后果的严重程度与所受剂量大小无关。说白了,就是得上癌症,都是玩完了。这里要记住几率的问题,或者说是概率的问题。癌症发病率是大量人群的统计结果,不过这个大量人群事实上也是有限的人群,而且统计过程无法克服对照组和观测组之间的纯洁性和其他因子相对同一性。所以,统计过程和统计数值也就是个参考值。大家看看就可以了,不必听风就是雨,把自己吓出个毛病来。 小弟不才,脑袋里面的东西理起来有点费劲,有什么写错的地方,尤其是技术方面的内容,还望指出。共同进步。 另外,这样的问题建议你可放到辐射防护等栏目中?
④ DQN中是否所有深度学习网络都可以用于计算Q值
图片用CNN,序列用RNN,普通情况NN,足矣。