首页 > 互联网应用, 搜索引擎, 搜索引擎优化 > 几种以 Googlebot 查看网页的方式

几种以 Googlebot 查看网页的方式

2009年12月4日 shaowei 发表评论 阅读评论

之前猎眼大侠做了一个非常精彩的案例分析:站群利用黑客技术和 Cloaking 来进行链接隐藏,并提供给目标网站的强大支撑。

其中有讲到如何将自己以 Googlebot 的方式来进行网页观察和分析,并进行了实际案例的分析,这里引用两个图和一段文字:

googlebot-1

图1

googlebot-2

图2

用 Googlebot 的视角来看这个目标网页,效果是不一样的,其中一个带有cloaking。

猎眼提到的方法是:

设置方法,打开火狐,Ctrl+T新建一个浏览标签,输入:about:config,打开配置页面,右键点击页面选择“新建→字符串”,在弹出的窗口中 输入:general.useragent.override,确定之后,输入:Googlebot/2.1(+http: //www.googlebot.com/bot.html),继续确定,关闭窗口。

通过修改Firefox的配置来实现。

而恰好在国平前辈的博客中经常提到的 Lynx,也能模仿google蜘蛛人的形式来看网页,我在学习过程中做了个试验,但是效果却并不一样,虽然有特殊的地方,但未能识别 Clocking,依然如普通的网页形式看到的纯文本,即使我在 Googlebot 的 Useragent下使用 Lynx,显示出来的结果依然是普通的纯文本,惊讶,如图3图4所示。由此在疑惑关于 Googlebot 的相关问题,并产生此文。

Update: 关于Lynx部分,其实Lynx是一个浏览器,若想完全体验Lynx,最好使用Linux版本下的浏览器方式,在线版本尚不能修改User-agent。

Lynx is a free open-source, text-only Web browser for use on cursor-addressable character cell terminals. Supported protocols are Gopher, HTTP, HTTPS, FTP, WAIS, and NNTP. 想情情查看维基百科

googlebot-3

图3

googlebot-4

图4

于是我收集整理了一些模仿 Googlebot 的方法,作为一个补充和呼应。

1 、Fetch as googlebot, 这是两个月前更新在网站管理员工具

2、安装 Firefox 扩展插件,名字叫 User Agent Switcher,这个扩展插件还可以自定义机器人,如图

googlebot-6

3、安装 SEOBOOK 为 SEOer 量身定做的工具条,里面也有 User Agent 切换功能,不光是 Googlebot了,还有 MSN bot, Yahoo Slurp等等。如图

googlebot-5

4、修改注册表(只限于IE):将下面代码另存为:Useragent.reg,然后确认就可以使用了。

Windows Registry Editor Version 5.00
[HKEY_LOCAL_MACHINE\SOFTWARE\Micro$oft\Windows\Curr entVersion\Internet Settings\5.0\User Agent]
@=”Googlebot/2.1″
“Compatible”=”+hxxp://www.googlebot.c0m/bot.html”

为了防止修改完后改不回来,这里再附加一段修改回的代码,另存为

Windows Registry Editor Version 5.00
[HKEY_LOCAL_MACHINE\SOFTWARE\Micro$oft\Windows\Curr entVersion\Internet Settings\5.0\User Agent]
@=”Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)”

5、猎眼的方法:

设置方法,打开火狐,Ctrl+T新建一个浏览标签,输入:about:config,打开配置页面,右键点击页面选择“新建→字符串”,在弹出的窗口中 输入:general.useragent.override,确定之后,输入:Googlebot/2.1(+http: //www.googlebot.com/bot.html),继续确定,关闭窗口。

再补充一些:User Agent String几乎将所有的 Googlebot 都在这个页面列举出来了,有兴趣进一步研究的可以查看,应该包括不少google的服务器IP资源

若想修改回来,请提前做好备份,当然你也可以在这里拷贝,我用的最新的firefox:

Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.0.15) Gecko/2009101601 Firefox/3.0.15

6、使用其他模仿 Googlebot 的方法如 Lynx 或者 HTTrack等等,详见国平博客。

7、等你来补充

标签: ,
  1. 2009年12月4日23:03 | #1

    一个优秀的人之所以优秀,在于他看到事情背后的背后,邓兄能在一个主题下深耕细挖,而不只是看过知道,佩服佩服。

  2. 2009年12月6日23:35 | #2

    我来了,你这文章很不错喔。

  1. 本文目前尚无任何 trackbacks 和 pingbacks.