MrD's Blog

我干了什么 究竟拿了时间换了什么

【强化学习】动态规划(DP)

动态规划的属性 最佳的子结构 最佳适用原则 最优解可以被分解为多个子问题 重叠的子问题 子问题重复递归很多次 解决方案可以缓存并且复用 马尔科夫决策过程满足两个属性 贝尔曼方程给出递归的分解 Value函数存储并复用解决方案 动态规划假设已经知道了MDP的所有信息 它用来在MDP中做一个计划 对于预测: 输入: MDP$(S, A, P,...

【强化学习】马尔科夫决策过程(MDP)

马尔科夫的属性 未来仅和当前有关,而与过去无关。 一个state $S_t$ 是马尔科夫, 当且仅当 对于一个马尔科夫状态$s$和下一状态$s’$, 状态转移概率定义为: 状态转移矩阵$P$定义为所有的状态$s$到所有的下一状态$s’$的转移概率: 马尔科夫过程 马尔科夫过程是无记忆性的随机过程。 马尔科夫过程(马尔科夫链)是一个tuple $(S, P)$ ...

【强化学习】强化学习相关概念

agent 一个RL agent可能包含一个或多个这些成分: policy: policy是一个agent的行为, 它是从state到action的一个映射: value: value函数是未来reward的预测, 用来评价state的好坏 model: model预测environment接下来会做什么, $P$预测下一个state, $R$预测下一...

【Geek之路】Linux相关命令

CPU lscpu:显示cpu架构信息 cat /proc/cpuinfo:查看CPU详细信息 1 2 3 4 5 6 7 8 9 10 11 12 13 14 # 查看物理CPU个数 cat /proc/cpuinfo | grep "physical id" | sort | uniq # 查看每个物理CPU中core的个数(即核数) cat /proc/cpuinfo | gr...

【强化学习】李宏毅强化学习课程笔记

公式推导 用$\pi_\theta(s)$表示一个参数为$\theta$的网络,也就是一个actor $S_i$表示observation, $a_i$表示action, $r_i$表示reward 总共的reward: $R_\theta = \sum_{t=1}^{T}r_t$ 即便是使用同一个actor, $R_\theta$每次也是不同的 一场游戏(episode)表示为$...

【转载】深度解密换脸应用Deepfake

这篇文章在我刚开始做Deepfakes的时候就看过,当时不明觉厉。 经过几个月的学习与实践,这篇文章非常符合我现在的理解与认知,其中对于全连接层和pixelshuffle的理解也带给了我新的认识。 原文地址:https://www.zhihu.com/search?type=content&q=pixelshuffler 前言 Deepfake就是前一阵很火的换脸App,从技...

【深度学习笔录】SNGAN论文阅读及其实现

论文部分 Abstract 生成对抗网络研究的挑战之一是其训练的不稳定性。 本文提出了一种新的权重规范化技术,称为谱规范化技术,以稳定判决器的训练。 我们的新的规范化技术在计算量小,并且易于合并到现有的实现中。 我们在CIFAR10、STL-10和ILSVRC2012数据集上测试了谱规范化的有效性,并实验证实了谱规范化GAN(SN-GANs)能够生成相对于以前的训练稳定技术,更好或相等质...

【深度学习笔录】SAGAN论文阅读及其实现

论文部分 Abstract 在本文中,我们提出了自注意力生成对抗网络(SAGAN),它允许对图像生成任务进行注意力驱动的, 长范围依赖建模。传统的卷积GAN生成高分辨率细节,仅作为低分辨率特征图中空间上局部点的函数。 在SAGAN中,可以使用来自所有特征位置的提示来生成细节。 此外,判决器可以检查图像远部分的高度细节特征是否相互一致。此外,最近的工作表明,生成器的条件会影响GAN性能。 ...

【深度学习笔录】SPADE(GauGAN)论文阅读及其实现

论文部分 Abstract 我们提出空间自适应规范化, 它是网络中的一个简单但是有效的层, 对给定一个语义布局输入, 合成真实感的图像。之前的方式直接将语义布局作为输入送入深度网络, 然后被堆叠起来的卷积层,规范化层和非线性层处理。我们展示了这不是最好的方法因为规范化层倾向于“洗去”语义信息。为了解决这个问题, 我们提出使用输入布局通过空间自适应的,可学习的变换来调整规范化层中的激活...

【深度学习笔录】StyleGAN论文阅读及其实现

论文部分 Abstract 我们提出一种生成对抗网络的可替代的生成器结构,灵感来自于风格迁移。 新的结构可以自动地、无监督地学习分离的高等级的特征(比如当在人脸数据集上训练时的姿势和身份)以及生成图片的随机多样性(比如雀斑,头发等),它可以实现直观、特定尺度的合成控制。根据传统的质量分布标准,新的生成器提高了最佳表现, 导致明显更好的插值属性,并且更好地解耦变量的隐因素。为了量化插值质量...