前面抓取了一次百度百科,见 http://rabbit9898.iteye.com/blog/1178199 是2011年9月份的,这次又对它重新做了一次抓取,发现百度百科做了防抓取设置,抓取起来可真麻烦,每次只能抓取2k个左右,然后得休息半个小时左右吧。
百度百科到2013-3月份号称有590w的数据,因此想抓取下来全部比较难,但是能把目前大家常用的抓取下来也不错了。
本次抓取的思路:
1)通过百科的每一个词条入口,这个建立在你已经有一批词条,然后调用首页的“进入词条”搜索,可以直接抓取到词条内容。(原始的词条你可以网上收集分词词库) 现在搜索的入口调用地址也用js封装起来了,估计得用httpwatch来找地址了,估计以后会越来越难找入口。
2)通过分类导航抓取词条的名词和词条的链接,根据词条的链接又抓取一部分词条内容。
如文化遗产: http://baike.baidu.com/fenlei/文化遗产 入口,抓取页面内容和翻页内容,解析每页当中的词条链接,得到的词条链接再单独抓取 http://baike.baidu.com/view/dddd.htm (dddd表示词条ID)得到词条内容。 (分类名称可以通过解析词条内容得到一部分;通过入口页自己整理一部分。)
3)对抓取到的具体词条内容解析其中的开放分类,可以得到更多的分类.根据该分类,循环步骤2)可以得到更多的词条。
4)对抓取到的具体词条内容解析其中的超链接 (这个参考htmlcleaner Object[] ns = node.evaluateXPath("//a"); ),匹配http://baike.baidu.com/view/dddd.htm (dddd表示数字) 都是具体的词条。
5)重复3和4可以抓取更多的词条。
6)对抓取的词条估计有200w左右吧,再进一步筛选你认为优质的词条,估计也就70w左右吧。 当然还有很多不怎么常用的词条,估计用处也不大。
相关推荐
因工作需要,最近在做自然语言处理方面的研究,第一步需要实现中文分词,市面上有许多开源的分词组件,本人使用的是word分词,但这些开源组件中的词库都比较小,因此这段时间主要是在网上爬了各种词库,并通过XX词典...
Mdcit词库 蜘蛛网疾病百科 多学点知识,随便看看.一般的疾病都能查询到的。
中文同义词词库-同义词词库-access版 本 有需要的请自行下载
极点6.5版_海峰【9.5】超大词库版-2009-07-11日制作.rar
ibus词库码表-98简码 (98沧海词库) 出简不出繁
QQ词典如何删除词库文件-.docx
中文分词 综合词库 更新至2014-03-11
搜狗输入法官网上的所有细胞词典,截止到2020年5月20号,并且转换为txt形式。有需要的同学自取。共11104个。 搜狗输入法官方词库地址:https://pinyin.sogou.com/dict/cate/index/1
百度百科1-3000词库 非常不错的mdict词库,不要错过哦!
lingous词典的汉英词库 Langdao C-E Dictionary.ld2
因工作需要,最近在做自然语言处理方面的研究,第一步需要实现中文分词,市面上有许多开源的分词组件,本人使用的是word分词,但这些开源组件中的词库都比较小,因此这段时间主要是在网上爬了各种词库,并通过XX词典...
用于ubuntu等Linux, ibus框架的搜狗词库-非常全面 原始文件名:sougou-phrases-full.7z 运行以下命令: sudo add-apt-repository ppa:shawn-p-huang/ppa sudo apt-get update sudo apt-get dist-upgrade 下载词库 ...
搜狗词库整理,不到2万个TXT文件,每个文件有若干词汇,一共大约3000W+的词汇,若想合并一个TXT,和通过:开始--运行--cmd--进入到文件夹--执行命令【type *.txt > d:\a.txt】。 全文检索拆词的较好选择
原来使用的是海峰98版16W,不常用的词实在太多。想换成其他的又找不到了。于是就用这个代替。系统要求最小资源分为2,不能为0,抱歉。
贴吧imy0823大神制作的Rime输入法词典包,上传备份用。解压后把所有文件放用户文件夹
2018-01-01至2019-05-31百度关键词热门百度的词库,csv版本,数据太大,wps打开时,数据不全,可使用文本编辑器打开
基于ik动态词库分词实现--无需重启服务
艺术类词库-数据集-机器学习训练材料大全-17万条-用于机器训练.txt
娱乐类词库-数据集-机器学习训练材料大全-86万条-用于机器训练.txt
mdict词库-郎文英英词典 直接复制到安装目录里面就行了。相信大家都知道吧。