PageRank计算过程与直觉：从简单例子切入

11 8 月, 2024 1041点热度 2人点赞 1条评论

0 前言

今天我们来介绍图论中，我觉得非常简单优雅的算法 PageRank，老样子，我还是会着重使用例子的方式进行介绍，以便大家能够快速清晰地了解这个算法。在这篇文章中，我们用页面来表示点，链接来表示边。

PageRank 是由 Google 的创始人拉里·佩奇和谢尔盖·布林在斯坦福大学开发的一种网页排名算法。它的基本思想是通过分析网页之间的链接关系来评估一个页面的重要性。这个算法有两个非常重要的特性：

PageRank算法可以用下面的公式来表示：

\(PR(p_i) = \frac{1-d}{N} + d\sum_{p_j \in B(p_i)} \frac{PR(p_j)}{L(p_j)}\)

其中：

在 PageRank 算法中，一开始会为所有页面初始化一个 PageRank 值，一般为 \(\frac{1}{N}\)。然后，使用上述公式，对所有页面的 PageRank 进行更新。更新完后继续更新，直到所有页面的 PageRank 数值收敛。

好了又来到重要的例子环节。

假设我们现在有一个页面网络如下：

null

可以看到，在上面这个例子中，

首先我们对所有页面的 PageRank 值进行初始化：

进行第一轮迭代，由公式 \(PR(p_i) = \frac{1-d}{N} + d\sum_{p_j \in B(p_i)} \frac{PR(p_j)}{L(p_j)}\) 有：

\(PR(A) = \frac{1-0.85}{4} + 0.85 * (\frac{PR(C)}{L(C)} + \frac{PR(D)}{L(D)}) \\ = \frac{1-0.85}{4} + 0.85 * (\frac{0.25}{1} + \frac{0.25}{2}) \\ = 0.0375 + 0.85 * (0.25 + 0.125) = 0.35625\)
\(PR(B) = \frac{1-0.85}{4} + 0.85 * (\frac{PR(A)}{L(A)} + \frac{PR(D)}{L(D)}) \\ = \frac{1-0.85}{4} + 0.85 * (\frac{0.25}{2} + \frac{0.25}{2}) \\ = 0.0375 + 0.85 * (0.125 + 0.125) = 0.25\)
\(PR(C) = \frac{1-0.85}{4} + 0.85 * (\frac{PR(A)}{L(A)} + \frac{PR(B)}{L(B)}) \\ = \frac{1-0.85}{4} + 0.85 * (\frac{0.25}{2} + \frac{0.25}{1}) \\ = 0.0375 + 0.85 * (0.125 + 0.25) = 0.35625\)
\(PR(D) = \frac{1-0.85}{4} = 0.0375\)

类似地，一次一次进行迭代，直到所有页面的 PageRank 值收敛。（比如说设置一个阈值，所有页面的 PageRank 值更新后，与原来的 PageRank 值的变化都小于阈值，我们认为算法收敛结束）

\(\sum_{p_j \in B(p_i)}\)：页面的重要性可以被传递，某页面的重要性接受其他所有链接过来的页面的重要性
\(\frac{PR(p_j)}{L(p_j)}\)：页面A如果链接了很多页面，那么它传递给每个页面的“重要性”就会相应减少。这是因为它的注意力被分散到了多个页面上。
\(d\)：阻尼因子 \(d\) 表示用户在浏览网页时继续跟随链接的概率(遵从跳转链接)，而 \(1-d\) 则表示用户随机跳转到任意页面的概率，进而 \(\frac{1-d}{N}\) 则表示用户随机跳转到当前页面的概率

希望上述直觉对大家理解这个公式有帮助。