UIFU.com

Google开始实验深度Web索引

2008-04-14 20:09:37 , holeo , 互联网络

Google一直持续在改进全球互联网信息索引的涵盖率,根据Google官方表示,最近他们开始实验新的作法,由HTML中的<FORM>来发掘新的网页。

(图片来源:MCS Internet Driver’s License)

Google目前实验的作法是由<FORM>送出查询,如果碰到文字栏位会试着填入该网站所含有的文字,如果碰到下拉选单,检核按钮或radio按钮会尝试从选项中选择一个。由模拟使用者可能送出的查询,就可以接着“爬进”该查询所回传的结果网页,当确认回传的网页是有效的而且不曾被加入索引过,就会像处理其他网页一样将其纳入索引中。目前这个实验会谨守一个良善的网页爬虫该遵守的规范,预先读取robots.txt,并遵守nofollow与noindex等指令,而且目前也只实验于某些含有大量有用资讯的网站。同样地,这个实验仅会抓取GET型式的网页,并且避免任何需要使用者资讯的<FORM>,例如会略过含有password文本框的<FORM>,或是使用一些用以描述个人信息术语的文本框,像是login,userid与contact等的<FORM>。

藉由加强版本网页爬虫所抓取的网页将不会影响原本抓取的一般网页,所以这个改善不会降低原本网页的PageRank,只会增加该网站在Google搜寻结果的曝光机会。

这个实验是Google为了增加全球互联网信息涵盖率所作的众多努力之一,事实上,HTML的<FORM>长久以来就视为发掘隐藏于网站内巨量资讯的有效手段,像是Deep Web,Hidden Web或是Invisible Web等术语就是用以描述此类被隐匿于一般搜寻引擎之后的内容。

新闻来源:Google Webmaster Central Blog

Powered by Holeo © 2008 UIFU.com