学习Sinkhorn Distance后的个人理解

summary

type

status

slug

概念

什么是Sinkhorn Distance？它是一种optimal transport distance。

什么是optimal transport distances呢？我们不妨说说其中很常见的推土机距离。

什么又是推土机距离呢？那下面就做个简单的介绍。

推土机距离

Wikipedia的对推土机距离的解释是：

In computer science, the earth mover's distance (EMD) is a distance-like measure of dissimilarity between two frequency distributions, densities, or measures over a region D.

简单来说，推土机距离是衡量两个分布之间的距离的一种方法。它的基本思想是将一种分布通过一定的代价转换为另一种分布，计算这个代价就是推土机距离。

对于两个分布和，可以将它们想象成仅堆叠不同的两堆土，怎么样花最低代价将左边的土推成右边的土呢？

你可能了解过度量两个分布的其他距离，如欧氏距离、KL散度、JS散度以及其他更复杂的距离，但是这类距离方式并未考虑两个分布之间的联合分布。而推土机考虑了：

其中，是所有联合分布的集合，其边缘分布分别为。

求解这样的式子，得到联合分布，也就是最终的推土方案：

Optimal Transport Distances

介绍完推土机距离后，回到optimal transport distances上。

假设有这样的交通运输场景⁵：有个仓库，个工厂，我们需要将某种物品从各个仓库运送到各个工厂（允许一个仓库的物品运往多个工厂，且允许一个工厂接受多个仓库的运货），希望找到最优运输方案来最大限度地降低运输成本，这便是最优传输问题。

假设第个仓库存货量是，第个工厂的需求量是，仓库到工厂的运输距离是，表示从第个仓库运货到第个工厂的货物量，那么求解这样的问题其实是在求解如下的线性规划：

和推土机距离的联系：

（下面均假设，理论上可推广至的情形），仓库和工厂可看成两堆不同的土，各个仓库的存储量情况和各个工厂的需求量情况可以看作两个分布，各个仓库和各个工厂的距离可以看作为两个分布（直方图）各个区域间的距离。

上面通过求解(2)式获得的就是最优传输距离，下文称之为原始optimal transport distance。

然而一些工作在(2)式的基础上加了一些约束，使其便于求解，因此就有了不同“版本”的距离，统称为optimal transport distances。例如常见的有：

Wasserstein Distance (也称推土机距离)：用于WGAN中，使用Lipschitz正则化(1)式的对偶形式中引入的函数。不过一些人认为WGAN中计算的分布间的距离并不是严格意义上的Wasserstein Distance。

Sinkhorn Distance: 它是Wasserstein distance的一个近似算法，使用了熵正则化的方法实现计算上的效率。通过引入熵惩罚项，可以将概率分布之间的optimal transport问题转变为具备良好计算性质的解析表达式。

Cramer Distance: 一种用于测量两个概率分布之间距离的方法，它是基于分布函数的平方差来定义的。Cramer Distance的提出是为了解决Wasserstein Distance在梯度计算中存在偏差的问题。

而今天本文的主角是“Sinkhorn Distance”，下面开始介绍。

Sinkhorn Distance

为什么文献[1]会提出Sinkhorn Distance呢？

其主要针对原始optimal transport distance的时间复杂度高这一问题，提出了一种最大化熵的约束方案来使传输方案不那么稀疏，并且降低了计算复杂度。具体而言，原始optimal transport distance存在的缺陷：

计算复杂度高：在针对两个d维的直方图的optimal transport distance时，至少需要。当测度空间嵌入到，在高维直方图上计算该距离的成本是非常巨大的。

稀疏性：由于计算原始optimal transport distance的是在求解线性规划问题，因此最优解通常出现在可行域的顶点处，落在顶点处的解通常是比较稀疏的。例如对于两个维直方图，使用线性规划求解的传输方案为的稀疏矩阵，且最多有个非零元素，从概率角度看，如果，具有很少的能使得。即一个仓库偏向于只为少量（甚至一个）仓库供货。这样的稀疏可能并不符合实际场景，以至于计算得到的并非最优解。

Sinkhorn Distance便是针对这两个问题提出的一种lightspeed computation、sufficient smoothness的optimal transport distance。