词库的扩充-百度百科的抓取（二）

rabbit9898

浏览: 146809 次
性别:
来自: 北京

最近访客更多访客>>

adnapllits

i4u

fanci

AILIKES

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

百度百科
词库
抓取

前面抓取了一次百度百科，见 http://rabbit9898.iteye.com/blog/1178199 是2011年9月份的，这次又对它重新做了一次抓取，发现百度百科做了防抓取设置，抓取起来可真麻烦，每次只能抓取2k个左右，然后得休息半个小时左右吧。

百度百科到2013-3月份号称有590w的数据，因此想抓取下来全部比较难，但是能把目前大家常用的抓取下来也不错了。

本次抓取的思路：

1）通过百科的每一个词条入口，这个建立在你已经有一批词条，然后调用首页的“进入词条”搜索，可以直接抓取到词条内容。（原始的词条你可以网上收集分词词库）现在搜索的入口调用地址也用js封装起来了，估计得用httpwatch来找地址了，估计以后会越来越难找入口。

2）通过分类导航抓取词条的名词和词条的链接，根据词条的链接又抓取一部分词条内容。

如文化遗产： http://baike.baidu.com/fenlei/文化遗产入口，抓取页面内容和翻页内容，解析每页当中的词条链接，得到的词条链接再单独抓取 http://baike.baidu.com/view/dddd.htm （dddd表示词条ID）得到词条内容。（分类名称可以通过解析词条内容得到一部分；通过入口页自己整理一部分。）

3）对抓取到的具体词条内容解析其中的开放分类，可以得到更多的分类.根据该分类，循环步骤2）可以得到更多的词条。

4）对抓取到的具体词条内容解析其中的超链接（这个参考htmlcleaner Object[] ns = node.evaluateXPath("//a"); ），匹配http://baike.baidu.com/view/dddd.htm （dddd表示数字）都是具体的词条。