文章目录[隐藏]

论文链接

总结

这篇文章提出了deep embedded regularIzed clustering (DEPICT)的方法，从网络架构上来讲是很多种trick的集成体。

网络

在这里插入图片描述
整体还是autoencoder的思路，变化主要有以下几点：

因为是图像，所以将中间层从linear层换成了conv层；
加入了去噪机制；
对loss的形式有所优化；
重构误差从‘用常见的只用初始层和输出层计算’转变到了‘将中间每一层对称的输入输出都做一次计算’。

架构

首先从上面图片的网络结构说起。这幅图应该自顶向下来看。

1. Noisy Encoder

这一部分与普通的autoencoder无甚区别，只是将输入变成了加入了噪音的输入且中间层变为了卷积层而已。最后这一部分的输出就是

\tilde{z}^3

$z ~^{3}$ （这里的上标代表着是第几层，如输入部分的

\tilde{x}

$x ~$ 就是

\tilde{z}^0

$z ~^{0}$ ）。这个

\tilde{z}^3

$z ~^{3}$ 就是一般autoencoder的中间表达。然后这部分的末尾接了一个softmax层，这一部分的工作不仅仅是一个softmax，还包含了一个linear层，将

\tilde{z}^3

$z ~^{3}$ 的特征维度映射到

$k$ 维，

$k$ 是簇的数量。然后就得到了每一个输入对应的簇，在图中用

\hat{p}

$p^$ 表示。

2. Decoder

这一部分使用第一部分的

\tilde{z}^3

$z ~^{3}$ 作为输入，使用逆卷积层将

\tilde{z}^3

$z ~^{3}$ 重构。网络架构恰好与上一部分相反，与传统autoencoder的decoder部分也没有什么不同的。

3. Clean Encoder

这一部分使用未加入噪音的原始输入

$x$ ，直接使用Noisy Enocder部分训练出来的encoder，得到原始输入对应的

z,p

$z, p$ 。

损失函数

这一部分作者提出了两种损失函数，第二种的形式相对较为简单，是第一种方式的‘化简’。下面将分别对它们进行介绍。

构成

文中提出的损失函数分为两个部分：聚类部分和重构部分。重构部分相同，所以先介绍重构部分。

重构损失

这一部分相对于传统的重构误差（只使用decoder的输出

\hat{x}

$x^$ 与原始的输入

$x$ )有所不同，它是对decoder和clean encoder中间每一层（包括初始输入和最后的输出）的临时向量

、

(

1...

)

\hat{z}^l、z^l(l=0,1...)

$z^^{l} 、 z^{l} (l = 0, 1 . . .)$ 都计算一个重构误差，然后对它们求均值。数学表达式如下：
在这里插入图片描述

在图中的话就是红色的

L_2

$L_{2}$ 。

聚类误差

原始形式

在这里插入图片描述
（推导式第二行的后半部分疑似有误，从KL散度的定义和上下文来看，应该是不存在系数

\frac{1}{N}

$\frac{1}{N}$ 的)
原始的聚类损失函数由两部分组成。
前半部分中q代表着Clean Encoder的输出

$p$ ，p代表着Noisy Encoder的输出

\tilde{p}

$p ~$ ，这一部分的作用是让Noisy Encoder输出的分布尽可能接近Clean Encoder输出的分布。
后半部分中

$u$ 代表着均匀分布，它可以被替换为任意符合簇分布的先验分布。而

∑

f_k = \frac{1}{N}\sum\limits_i q_{ik}

$f_{k} = \frac{1}{N} i \sum q_{i k}$ ，这代表着每一簇的分配概率。这一部分的作用是使簇分布尽量接近于

$u$ ，使样本点不致全部落在一个簇里。

简化形式

在这里插入图片描述
原始形式的式子经化简后得到上图中的式子，与交叉熵数学表达式相同。（只有当N足够大的时候才能写成这种形式，而文中正是采用的这种形式）

数学推导（这部分不看不影响论文的阅读）

这一部分暂未完成，我没有推导出来。
有以下几个问题：

中间求偏导部分的第一个式子的分母，文中并没有 $u_k uk；$
并没有看出来 $q_{ik} qik是怎么化简出来的。$

首先，原始形式那部分的损失函数形式如下:

∑

(

)

L=\frac{1}{N}\sum\limits^N_{i=1}\sum\limits^K_{k=1}(q_{ik}log\frac{q_{ik}}{p_{ik}} + q_{ik}log\frac{f_k}{u_k})

$L = \frac{1}{N} i = 1 \sum N k = 1 \sum K (q_{i k} l o g \frac{q _{i k}}{p _{i k}} + q_{i k} l o g \frac{f _{k}}{u _{k}})$
上式中log和ln的含义相同。
合并得：

∑

L = \frac{1}{N}\sum\limits^N_{i=1}\sum\limits^K_{k=1}q_{ik}log\frac{q_{ik}f_k}{p_{ik}u_k}

$L = \frac{1}{N} i = 1 \sum N k = 1 \sum K q_{i k} l o g \frac{q _{i k} f _{k}}{p _{i k} u _{k}}$
而

q_{ik}

$q_{i k}$ 的loss则为:

L_{q_{ik}} = q_{ik}log\frac{q_{ik}f_k}{p_{ik}u_k}

$L_{q_{i k}} = q_{i k} l o g \frac{q _{i k} f _{k}}{p _{i k} u _{k}}$
然后对

q_{ik}

$q_{i k}$ 求偏导(

q_{ik}

$q_{i k}$ 的梯度）:

∂

∑

′

\frac{\partial L_{q_{ik}}}{\partial q_{ik}} = log\frac{q_{ik}f_k}{p_{ik}u_k} + \frac{q_{ik}}{\sum\limits_{i'}^Nq_{i'k}} + 1

$\frac{\partial L _{q_{i k}}}{\partial q _{i k}} = l o g \frac{q _{i k} f _{k}}{p _{i k} u _{k}} + \frac{q _{i k}}{i ^{'} \sum N q _{i^{'} k}} + 1$
当N足够大时，式子第二项的值就可以忽略不计。
令梯度(

L_{q_{ik}}

$L_{q_{i k}}$ )为0（即达到局部最优解的时候），且忽略第二项，则可得到如下等式：
在这里插入图片描述
于是损失函数化为：

总损失函数

在这里插入图片描述
即简化版聚类损失加上重构损失。

BS3_1 11th

版权声明：本文为CSDN博主「吾道长存」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/eternal_city/article/details/121205283

Deep Clustering via Joint Convolutional Autoencoder Embedding and RelativeEntropy Minimization论文笔记

论文链接

总结

网络