`
kernaling.wong
  • 浏览: 77883 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论
文章列表
开场白:   在我们上google或者baidu的时候,在输入框中输入关键字,然后就有建议的提示来让用户选择。如下图: 可以看到,输入了前面的关键字就能全部匹配了关键出来了。但有人会问,直接用BooleanQuery与TermQuery组合起来即可以实现这样的结果了。可是这里有点不同的是首先用户输入的每一个字母并不一定是分词器可以分出来的,同时,大家可以发现返回的结果都是一定先以用户输入的为前匹配的,所以如果单纯用普通的分词是不能实现这样的效果的。 如何做:   但如果我们理解了Term在Lucene中的应用后,就很容易实现这个效果了。用公司名称来举例子,现在我们需要用户输入公司名称中的 ...
开场白:以前职友集(www.jobui.com)的排序方式很原始,直接按Lucene的默认的Similarity排序,不过这样使得用户感受非常不好,留意过我之前写的博客中已经有提到过通过继承Similarity来实现自定义的排序方法。因为职友集是一个全国 ...
开场白:sphinx是一个简单但功能相当强大的基于mysql的一个搜索插件包. 1 搜索速度方面稍比lucene快,索引分词速度上也比lucene的分词工具如:IK,paoding等快.(个人平时实践而言) 2 内存搜索与CPU占用方面,比lucene要控制得好. 3 灵活性明 ...
开场白: 作为一个人才网站的搜索功能,不但需要考滤搜索性能与效率,与需要注意用户体验,主要体现于用户对搜索结果的满意程度.大家都知道Lucene的排序中,如果单纯使用Lucene的DefaultSimilarity作为一个相似度的排序,意思是说总体上越相关的记录需要排得越前,但事与愿违.这样使用户体现也表现得相当糟糕.关键字“程序员”标题中也不能保证全部都匹配到(搜索结果来自 www.jobui.com 职友集) [下图] 起因:之很长一段时间我都注重于搜索性能与速度的提高,而对于搜索结果对用户的体验却一直没有太多的关注,现在需要关注一下用户体现这个东西了.同时技术上也作为一些调整.具体表现 ...
开场白:最近在做一个PHP搜索结果的页面,需要用php的socket去提交参数,然后由java server socket返回一段搜索结果,当然这是一个xml的结果,然后由php去解释并显示出来页面.然而在这个调用php socket的过程中发现每一次调用php的socket时就会报错 Call to undefined function socket_create 意思就是说php对于socket并不支持,意思是说,配置对socket的支持... 开始:     其实解决办法很简单,最直接就是直接重装php,在重编译的时候加上一个 --enable-sockets的参数就可以了.其实php的 ...
开场白:一个多月没有写博客了,今天就写点这一个月工作情况吧.新的公司搜索框架最后却不能成功上线运行这点令我很遗憾,结果还是使用旧有的. 背景:    现在公司一直使用的搜索框架由于内存的使用上及搜索速度和索引的切换 ...
开场白:关于tokyocabinet的性能就不说了,但至于安装的话,我之前已经写过关于安装java版的tokyocabinet,但我觉得未够系统,所以决定还简短说说。。。。然后再说一下关于tokyocabinet原生的java API是不支持直接存取java对象的.但可以做些扩展让java tokyocabinet技术存取对象. 1   如果直接编译的tokyocabinet java版的时候,./configure都不通过,因为缺少了编译时共享.h头文件,或者说,没有正确安装C语言版的tokyocabinet了.[如图] 2   其实,首先可以从官方网站http://tokyocabin ...
开场白: 我看过几本书说关于lucene中的BooleanQuery查询条件的参数 Boolean.Clause.MUST,Boolean.Clause.MUST_NOT,Boolean.Clause.SHOULD之关的关系,其实就好象是集合中的交集并集等关系.这里不重复书的例子,说一点我平时在工作中的应用吧.    书基本都是说,当MUST与SHOULD关联使用的时候,跟MUST使用是一样的,那天我做一个关系搜索结果按相关排序,这里简单说一下需求,这是说用户输入关键字后,应该把所有的付费会员商品按相关度从高到低排序来推荐给用户.现在已经一批付费会员的编号了,同时知道会员用户的产品名称与产品 ...
开场白: tokyocabinet是一日本人开发的一个高速key-value持久的缓存数据库,比bekerlyDB速度还要快。     我是打算用它来作为公司搜索缓存的.可以从http://tokyocabinet.sourceforge.net/javapkg/下载这java的版本,前提条件首先要安装jdk了,然后 ...
经过在公司内部约1个月的测试,这个工具终于完成了,从中,遇到不少的问题,也改进了不少的问题,比如,改进了平台不兼容的问题,在windows平台下运行无问题,但在linux下却出现了问题等。。。希望大家多多支持,提出意见。这个工具都是向前简单,易用,容易扩展等方向去想。都是平时工作的经验总结。大家多多支持... 同时大家可以从http://OpenSVN.csie.org/kernalingLog checkout下来, 是Eclipse工程,用之打开即可.
在平时的开发中需要某些输出与记录,当然有很多的工具可以使用,如Log4J,本来这个日志系统早一个月前就已经开发完成了,但这段时间工作忙,所以一直只顾用它来测试,没有添加什么功能了.测试过程中产生了几个bug,同时已经修复了.OK,先说说这个日志系统具体功能与作用.    1.  简单,这个日志工具不需要添加任何的额外xml,文本文件等配置,当时也可以添加,在开发中,只需要把这个包kernalingLog.jar添加到工程环境就可以运行了.    2.  灵活,提供多种不同的选项组合,比如,可以指明输出日志的时间间隔,可以很简单就配置输入出的日志是否记录文本等.同时可以有多种输出文本格式可以选择 ...
Global site tag (gtag.js) - Google Analytics