上图是按级别排序的子目录。
确保将所有 C2 替换为适当的起始单元格,然后按最小到最大对新的子目录计数列进行排序,以按逻辑顺序获取良好的文件夹列表,或者轻松地按子目录级别进行过滤。例如,如下截图所示:
上图是按深度排序的子目录。
如果您不处理大量 URL,您可以简单地按字母 skype 数据库 顺序对 URL 进行排序,但这样您将无法获得子目录计数过滤,这对于较大的网站来说可能要快得多。
创建数据透视表后,将行设置为 URL 或 URI 词干,并将求和值设置为用户代理。
从那里,您可以右键单击用户代理列,然后按抓取计数从最大到最小对 URL 进行排序:
现在,您将拥有一个很棒的表格来制作图表或快速查看并查找任何有问题的区域:
查看此数据时要问自己的一个问题是:您或客户希望抓取哪些页面?多常?频繁的抓取并不一定意味着更好的结果,但它可以表明谷歌和其他内容用户代理最优先考虑什么。
頁:
[1]