`
文章列表
[转载] 源地址:https://weibo.com/ttarticle/p/show?id=2309404000076505691403        对于搜索引擎来讲,很多情况下只需要用户在搜索输入框内输入所需要查询的内容就可以了,其余的事情就全部交给搜索引擎去处理。理想的情况下,搜索引擎会优先返回用户想要的结果。理想很丰满,但总会存在一些骨感的现实,用户通过搜索无法找到最想要的结果。如果应用中压根不存在用户搜索的内容,倒还可以理解。反之的话,就是一个大写的尴尬。本文主要谈论和解决的是令人尴尬的问题。 为什么会搜索不到   1、不同的用户对同一种诉求的表达往往是有差别的,往往会存在 ...
   以前运行很好的java rmi 服务,重启的时候死活起不来,提示 “Exception in thread "main" net.sf.cglib.core.CodeGenerationException: java.rmi.server.ExportException-- Port already in use: 0; nested exception is:         java.net.BindException: Address already in use ” 提示Port 0 使用,实际的端口是16101,用netstat 查看该端口也没有被占用。 ...
Simhash    传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文 章对应向量的向量夹角。但由于有可能一个文章的特征向量词 ...
阿里技术嘉年华ppt下载地址   http://adc.alibabatech.org/carnival/history/schedule/2013
     Mahout是一个机器学习,推荐引擎的开源软件。官网地址:http://mahout.apache.org/        推荐原理可以参考:http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/index.html  1.  推荐原理 基于用户的 CF(User CF)(Collaborative Filt ...

Jaccard系数

   Jaccard 系数,又叫做Jaccard相似性系数,用来比较样本集中的相似性。Jaccard系数等于样本集交集与样本集合集的比值。    公式:                用来比较两个集合A和B的相似度。它可以用来比较文档相似度,示例:        英文资料:http://en.wikipedia.org/wiki/Jaccard_index      
        前面抓取了一次百度百科,见 http://rabbit9898.iteye.com/blog/1178199  是2011年9月份的,这次又对它重新做了一次抓取,发现百度百科做了防抓取设置,抓取起来可真麻烦,每次只能抓取2k个左右,然后得休息半个小时左右吧。        百度百科到2013-3月份号称有590w的数据,因此想抓取下来全部比较难,但是能把目前大家常用的抓取下来也不错了。      本次抓取的思路:      1)通过百科的每一个词条入口,这个建立在你已经有一批词条,然后调用首页的“进入词条”搜索,可以直接抓取到词条内容。(原始的词条你可以网上收集分词词库) ...
默认zookeeper给每个客户端IP使用的连接数为10个,经常会出现连接不够用的情况。修改连接数目前好像只支持zoo.cfg配置文件修改,所以需要zookeeper重启才能生效。   zoo.cfg: maxClientCnxns=300 否则报错如下:2011-10-28 09:39:44,856 – WARN  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:5858:NIOServerCnxn$Factory@253] – Too many connections from /172.*.*.* – max is 10     zoo.cfg参考 ...
java Float的范围:   //相应的浮点数: 3.4028235E38   1.4E-45  System.out.println(Float.MAX_VALUE) ;    System.out.println(Float.MIN_VALUE) ;   java FLoat的精度: 通常为7-8位的数字精度     String a="123456789";  float a_f= new Float(a);  java.text.DecimalFormat   numberformat=new   java.text.DecimalFormat( &q ...
8月29号,MongoDB发布了其2.2版本,2.2 版本可以看作是2.0 版本的功能增强版,本次改进最大的亮点在于其并发性能的提升,我们能够看到,广受诟病的全局锁已经在这一版中被拿掉,取而代之的是DB级别的锁,而且collection 级别的锁也不远了。 下面就看看2.2 版本的几个新功能吧: 1.并发性能增强 如上面所说,MongoDB 2.2版本中不再有凌驾于整个daemon上的全局锁,而是将锁的粒度减小到了DB级别。并且按MongoDB 的CEO Dwight Merriman所说,这次虽然没有一步到位的将锁粒度改到collection级别,但是从全局锁到DB 锁这一步,已经完 ...
    怎样量化评价搜索引擎的结果质量   来源:InfoQ   作者:陈运文   前言       搜索质量评估 是搜索技术研究的基础性工作,也是核心工作之一。评价(Metrics) 在搜索技术研发中扮演着重要角色,以 ...
  1. scala 环境搭建       机器中需要有java的JDK的开发环境。      从 http://www.scala-lang.org/downloads 下载scala的开发包。 最新版本是scala-2.9.2。 我下载了 scala-2.8.2.final.zip。      下载的zip包解压,解压到D:\tools\scala-2.8.2.final\目录下,把"D:\tools\scala-2.8.2.final\bin" 添加到环境变量PATH中。      在命令行下执行      D:\>scalac -version ...
前言: 目前流行的服务调用方式有很多种,例如基于 SOAP 消息格式的 Web Service,基于 JSON 消息格式的 RESTful 服务等。其中所用到的数据传输方式包括 XML,JSON 等,然而 XML 相对体积太大,传输效率低,JSON 体积较小,新颖,但还 ...
在分布式算法领域,有个非常重要的算法叫Paxos, 它的重要性有多高呢,Google的Chubby [1]中提到 all working protocols for asynchronous consensus we have so far encountered have Paxos at their core. 关于Paxos算法的详述在维基百科中有更多介绍,中文版介绍的是choose value的规则[2],英文版介绍的是Paxos 3 phase commit的流程[3],中文版不是从英文版翻译而是独立写的,所以非常具有互补性。Paxos算法是由Leslie Lamport提 ...
模块入门–搜索 发表于 2012 年 6 月 5 日 由 小猛 <!-- .entry-meta --> <!-- .entry-header --> 搜索能够帮助用户在海量的数据库中实现大海捞针,是产品最核心的模块之一。本篇是从设计的角度介绍搜索模块,包含Web和ios两 ...
Global site tag (gtag.js) - Google Analytics