强化学习小笔记 —— 从 Normal 正态分布的对数概率密度到 tanh-Normal的对数概率密度_计算tanh_normal分布的对数概率密度-程序员宅基地

技术标签: 经验分享  笔记  深度学习  

在学习 SAC 算法用于连续动作的代码时,遇到了一个不懂的地方,如下代码所示:

# pytorch
class PolicyNetContinuous(torch.nn.Module):
    def __init__(self, state_dim, hidden_dim, action_dim, action_bound):
        super(PolicyNetContinuous, self).__init__()
        self.fc1 = torch.nn.Linear(state_dim, hidden_dim)
        self.fc_mu = torch.nn.Linear(hidden_dim, action_dim)
        self.fc_std = torch.nn.Linear(hidden_dim, action_dim)
        self.action_bound = action_bound

    def forward(self, x):
        x = F.relu(self.fc1(x))
        mu = self.fc_mu(x)
        std = F.softplus(self.fc_std(x))
        dist = Normal(mu, std)
        normal_sample = dist.rsample()  # rsample()是重参数化采样
        log_prob = dist.log_prob(normal_sample)
        action = torch.tanh(normal_sample)
        # 计算tanh_normal分布的对数概率密度
        # 我们需要的是进行 tanh 转换后的对数概率密度,不是 normal 对数概率密度
        log_prob = log_prob - torch.log(1 - torch.tanh(action).pow(2) + 1e-7)
        action = action * self.action_bound
        return action, log_prob

# tensorflow
class PolicyNetContinuous(tf.keras.Model):
    def __init__(self, state_dim, hidden_dim, action_dim, action_bound):
        super(PolicyNetContinuous, self).__init__()
        self.fc1 = tf.keras.layers.Dense(hidden_dim, activation=tf.keras.activations.relu)
        self.fc_mu = tf.keras.layers.Dense(action_dim)
        self.fc_std = tf.keras.layers.Dense(action_dim, activation=tf.keras.activations.softplus)
        self.action_bound = action_bound

    def call(self, x):
        x = self.fc1(x)
        mu = self.fc_mu(x)
        std = self.fc_std(x)
        dist = tfp.distributions.Normal(loc=mu, scale=std)
        normal_sample = dist.rsample()
        log_prob = dist.log_prob(normal_sample)
        action = tf.tanh(normal_sample)
        log_prob = log_prob - tf.math.log(1 - tf.tanh(action) ** 2 + 1e-7)
        action = action * self.action_bound
        return action, log_prob

疑惑的地方在于对动作的对数概率密度进行了以下处理:

log_prob = log_prob - torch.log(1 - torch.tanh(action).pow(2) + 1e-7)

从代码里可以看到,策略网络的目标是输出一个动作,这个动作是从一个参数为 mu 和 std 的正态分布中采样得到的。然后,这个动作被一个 tanh 函数转换到 -1 到 1 的范围内,以满足环境的动作空间要求。

这里的 log_prob 是动作的对数概率密度。在 SAC 算法中,我们需要计算这个对数概率密度,因为它在更新策略网络时会用到。

因为动作是从正态分布中采样得到的,然后使用tanh()进行转换,经过转换后的动作的对数概率密度不能再使用从正态分布中获取的log_prob。所以,我们需要计算的是这个转换后的动作的对数概率密度,而不是转换前的动作的对数概率密度。

下面来说明一下,基于转换后的对数概率密度是怎么得到的:
(1)首先,我们从一个正态分布 N o r m a l ( m u , s t d ) Normal(mu,std) Normal(mu,std)中采样一个随机变量 x x x,其概率密度函数为 p X ( x ) p_X(x) pX(x),接着,我们使用 t a n h tanh tanh函数将随机变量 x x x映射为另一个随机变量 y = t a n h ( x ) y=tanh(x) y=tanh(x),y对应的概率密度函数为 p Y ( y ) p_Y(y) pY(y)
(2)根据反函数的定义,我们可以知道有: y = t a n h ( x ) y=tanh(x) y=tanh(x) x = t a n h − 1 ( y ) x=tanh^{-1}(y) x=tanh1(y),其中 t a n h − 1 为 t a n h tanh^{-1}为tanh tanh1tanh的反函数。
(3)我们考虑 p Y ( y ) p_Y(y) pY(y)对应的累积分布函数: F Y ( y ) = p ( Y < = y ) = p ( g ( X ) < = y ) F_Y(y)=p(Y<=y)=p(g(X)<=y) FY(y)=p(Y<=y)=p(g(X)<=y) 公式中的 g = t a n h ( ⋅ ) g=tanh(·) g=tanh()
(4)根据反函数的性质和tanh(·)的单调性,可以将(3)中的公式修改为: F Y ( y ) = p ( X < = t a n h − 1 ( y ) ) = F X ( t a n h − 1 ( y ) ) F_Y(y)=p(X<=tanh^{-1}(y))=F_{X}(tanh^{-1}(y)) FY(y)=p(X<=tanh1(y))=FX(tanh1(y))
(5)要得到 Y Y Y的概率密度函数 p Y ( y ) p_Y(y) pY(y),我们可以对 F Y ( y ) F_Y(y) FY(y)进行求导,根据链式法则有: p Y ( y ) = d F X ( t a n h − 1 ( y ) ) d y = d F X ( t a n h − 1 ( y ) ) d t a n h − 1 ( y ) ⋅ d t a n h − 1 ( y ) d y = p X ( x ) 1 − ( t a n h ( x ) ) 2 p_Y(y)=\frac{dF_X(tanh^{-1}(y))}{dy}=\frac{dF_X(tanh^{-1}(y))}{dtanh^{-1}(y)}·\frac{dtanh^{-1}(y)}{dy}=\frac{p_X(x)}{1-(tanh(x))^2} pY(y)=dydFX(tanh1(y))=dtanh1(y)dFX(tanh1(y))dydtanh1(y)=1(tanh(x))2pX(x)
(6)获取对数概率密度函数: l o g P Y ( y ) = l o g P X ( x ) − l o g ( 1 − ( t a n h ( x ) ) 2 ) logP_Y(y) = logP_X(x) - log(1-(tanh(x))^2) logPY(y)=logPX(x)log(1(tanh(x))2)
(7)为了避免 1 − ( t a n h ( x ) ) 2 1-(tanh(x))^2 1(tanh(x))2等于0导致log趋向于无穷小,所以一般会加一个 1 e − 7 1e-7 1e7,即: l o g P Y ( y ) = l o g P X ( x ) − l o g ( 1 − ( t a n h ( x ) ) 2 + 1 e − 7 ) logP_Y(y) = logP_X(x) - log(1-(tanh(x))^2 + 1e-7) logPY(y)=logPX(x)log(1(tanh(x))2+1e7)
(8)综上,得到了代码中的结果。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_37388085/article/details/134221636

智能推荐

在Google使用Borg进行大规模集群的管理 7-8-程序员宅基地

文章浏览阅读606次。为什么80%的码农都做不了架构师?>>> ..._google trace batch job

python加密字符串小写字母循环后错两位_python学习:实现将字符串进行加密-程序员宅基地

文章浏览阅读2.6k次,点赞3次,收藏3次。'''题目描述1、对输入的字符串进行加解密,并输出。2加密方法为:当内容是英文字母时则用该英文字母的后一个字母替换,同时字母变换大小写,如字母a时则替换为B;字母Z时则替换为a;当内容是数字时则把该数字加1,如0替换1,1替换2,9替换0;其他字符不做变化。s'''#-*-coding:utf-8-*-importre#判断是否是字母defisLetter(letter):iflen..._编写函数fun2实现字符串加密,加密规则为:如果是字母,将其进行大小写转换;如果

【Java容器源码】集合应用总结:迭代器&批量操作&线程安全问题_迭代器是否可以保证容器删除和修改安全操作-程序员宅基地

文章浏览阅读4.4k次,点赞6次,收藏8次。下面列出了所有集合的类图:每个接口做的事情非常明确,比如 Serializable,只负责序列化,Cloneable 只负责拷贝,Map 只负责定义 Map 的接口,整个图看起来虽然接口众多,但职责都很清晰;复杂功能通过接口的继承来实现,比如 ArrayList 通过实现了 Serializable、Cloneable、RandomAccess、AbstractList、List 等接口,从而拥有了序列化、拷贝、对数组各种操作定义等各种功能;上述类图只能看见继承的关系,组合的关系还看不出来,比如说_迭代器是否可以保证容器删除和修改安全操作

养老金融:编织中国老龄社会的金色安全网

在科技金融、绿色金融、普惠金融、养老金融、数字金融这“五篇大文章”中,养老金融以其独特的社会价值和深远影响,占据着不可或缺的地位。通过政策引导与市场机制的双重驱动,激发金融机构创新养老服务产品,如推出更多针对不同年龄层、风险偏好的个性化养老金融产品,不仅能提高金融服务的可获得性,还能增强民众对养老规划的主动参与度,从而逐步建立起适应中国国情、满足人民期待的养老金融服务体系。在人口老龄化的全球趋势下,中国养老金融的发展不仅仅是经济议题,更关乎社会的稳定与进步。养老金融:民生之需,国计之重。

iOS 创建开源库时如何使用图片和xib资源

在需要使用图片的地方使用下面的代码,注意xib可以直接设置图片。将相应的图片资源文件放到bundle文件中。

R语言学习笔记9_多元统计分析介绍_r语言多元统计分析-程序员宅基地

文章浏览阅读3.6k次,点赞4次,收藏66次。目录九、多元统计分析介绍九、多元统计分析介绍_r语言多元统计分析

随便推点

基于psk和dpsk的matlab仿真,MATLAB课程设计-基于PSK和DPSK的matlab仿真-程序员宅基地

文章浏览阅读623次。MATLAB课程设计-基于PSK和DPSK的matlab仿真 (41页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦!9.90 积分武汉理工大学MATLAB课程设计.目录摘要 1Abstract 21.设计目的与要求 32.方案的选择 42.1调制部分 42.2解调部分 43.单元电路原理和设计 63.1PCM编码原理及设计 63.1.1PCM编码原理 ..._通信原理课程设计(基于matlab的psk,dpsk仿真)(五篇模版)

腾讯微搭小程序获取微信用户信息_微搭 用微信号登录-程序员宅基地

文章浏览阅读3.5k次,点赞6次,收藏28次。腾讯微搭小程序获取微信用户信息无论你对低代码开发的爱与恨, 微信生态的强大毋庸置疑. 因此熟悉微搭技术还是很有必要的! 在大多数应用中, 都需要获取和跟踪用户信息. 本文就微搭中如何获取和存储用户信息进行详细演示, 因为用户信息的获取和存储是应用的基础.一. 微搭每个微搭平台都宣称使用微搭平台可以简单拖拽即可生成一个应用, 这种说法我认为是"夸大其词". 其实微搭优点大致来说, 前端定义了很多组件, 为开发人员封装组件节省了大量的时间,这是其一; 其二对后端开发来说, 省去了服务器的部署(并没有省去后_微搭 用微信号登录

sql中索引的使用分析

sql中索引的使用分析

termux安装metasploit()-程序员宅基地

文章浏览阅读8.9k次,点赞16次,收藏108次。因为呢,termux作者,不希望让termux变成脚本小子的黑客工具,于是把msf , sqlmap等包删了。至于如何安装metasploit呢。apt update -y && apt upgrade -y #更新升级更新升级之后要安装一个叫 git 的安装包apt install git -y然后我们就开始//这里的话建议把手机放到路由器旁边,保持网络的优良。或者科学上网。//git clone https://github.com/gushmazuko/metaspl_termux安装metasploit

armbian docker Chrome_一起学docker06-docker网络-程序员宅基地

文章浏览阅读141次。一、Docker支持4种网络模式Bridge(默认)--network默认网络,Docker启动后创建一个docker0网桥,默认创建的容器也是添加到这个网桥中;IP地址段是172.17.0.1/16 独立名称空间 docker0桥,虚拟网桥的工作方式和物理交换机类似,这样主机上的所有容器就通过交换机连在了一个二层网络中。host容器不会获得一个独立的network namespace,而是与宿主..._armbian 172.17.0.1

Ansible-Tower安装破解

Ansible-Tower安装破解。

推荐文章

热门文章

相关标签