Screaming Frog SEO Spider是国外开发的著名链接检测工具,可以应用在Windows、MAC、Ubuntu等系统。可以快速分析一个网站的链接、图片、CSS、Script等元素。可以免费下载安装,免费版可以分析500个链接。
功能介绍
Spider的抓取方式可以分为Spider与URL,简单点理解就是一个你可以放一个页面或域名开始抓取,另外一个则是放一个url文件进去抓取。
你在输入好url或选择好url文件后则会开始抓取内容,那么问题来了,Spider可以为我们抓取页面的什么内容呢?
页面链接
文件类型与编码
HTTP状态码和状态
Title与长度
Description与长度
Keywords与长度
H1标签文本与长度
H2标签文本与长度
Canonical URL
其他(文件大小,字数,层数,内链数量,站外链接数量等)
对于链接抓取的限制上,Spider也做了许多功能。首先是下面的特殊限制:
检查图片
检查css文件
检查js文件
检查swf文件,也就是Flash之类的
检查外部链接
检查目录以外的链接
跟踪标识Nofollow的站内链接
跟踪表示Nofollow的外部链接
忽略robots.txt
总共抓取数量
总共抓取层数
这里大家可能还是看不太懂,那Adrian为大家简单举例解释一下。
案例一:D姐想要抓UC所有页面,其中不包括CSS,JS,SWF(因为这些浪费时间和资源)。那么就可以取消勾选四个选项了;
案例二:民工想要像蜘蛛一样爬取UC的页面,那么就可以只勾选Ignore robots.txt这一项了;
案例三:何元想要只抓dx的首页所有链接,全部勾选上,除了不要勾Ignore与Limit search toal就可以了,当然记得勾上Limit Search Depth 并设置层级为1;
如果还看不懂,那我也无能为力了,只能是找D姐给你好好培训一下SEO了。
其实Spider的功能有许多,我就不一一提及了。说几个我常用的功能吧!
第一个,正则爬行页面。
在configuration中的include和exclude里都有可以写正则的地方,在那里你可以设置你想要特定抓取爬行的链接。至于怎么使坏,需要你自己想象了。
第二个,速度限制。
在configuration中的Speed中有关于速度的限制,这里需要提一下的是速度上的限制不仅仅指的是线程,还有限制抓取URL速度,例如你想要1 URL/S,又或者是2 URL/S。这个功能可以躲避部分有防重复爬行限制的网站。
第三个,User Agent设置。
在configuration中有一个User Agent里可以设置你的身份,你可以设置为某搜索引擎的蜘蛛或浏览器都可以。
第四个,自定义字段检查功能。
同样是在configuration中的custom,这个功能可以说是比较好用的功能,主要是可以让Spider在爬行抓取的同时可以根据你所设置的自定义字段进行筛选。例如:我在Custom设置了包含DVD这个字眼,那么所有出现DVD字眼的页面都会特别筛选出来。
还有其他的功能,如:代理抓取,制作sitemap,导出url等功能,都是比较实用的。
文章源自 设计联盟 www.DesignLinks.cn 中国最具影响力的创意设计综合网站