获取网络随机样本的第一个大问题是没有真正随机的起点。想一想。与一袋弹珠不同,你可以伸手盲目地随机抓取一个,如果你事先不知道 URL,你就无法随机挑选一个。您可以尝试通过一个接一个地打乱和删除字母来创建随机 URL,但我们知道语言不是这样工作的,因此 URL 将与我们在网络上找到的非常不同。不幸的是,每个人都被迫从一些伪随机过程开始。
我们必须做出选择。这是一场艰难的比赛。我们是从不 加纳 WhatsApp 数据 支持 Moz 的已知强偏见开始,还是从支持 Moz 的已知弱偏见开始?我们可以使用我们自己索引中的随机选择作为此过程的起点,这将是伪随机的,但可能有利于 Moz,或者我们可以从一个小型的公共索引(例如 Quantcast Top Million)开始。就像我们可以从一个小型的公共索引开始,该索引强烈偏向于好的网站。
我们决定以后者为起点,因为 Quantcast 数据是:
可重现 我们不打算将“随机 URL 选择”作为 Moz API 的一部分,因此我们需要业内其他人可以开始使用的东西。 Quantcast Top Million 对所有人免费。
对 Moz 没有偏见:我们宁愿谨慎行事,即使这意味着需要做更多工作来消除偏见。
已知偏见:Quantcast 前 1,000,000 名中的偏见很容易理解 - 这些都是重要的网站,我们需要解决这种偏见。
Quantcast 偏差是自然的:任何链接图本身都已经共享一些 Quantcast 偏差(强大的网站更有可能具有良好的链接)
考虑到这一点,我们从 Quantcast 前百万域名中选择了 10,000 个域名,并开始消除偏见的过程。
2. 根据域大小而不是重要性进行选择
.起点:获取种子URL
-
- Posts: 392
- Joined: Tue Jan 07, 2025 4:41 am