Search blog.co.uk

Posts tagged with:

study

  • 老了 from relogin 733 days old

    很久没看到一堆程序员讨论了 今天总算又年轻了一把 赶紧自己更老了,已经赶不上这批人追求的东西了 总结了一下,自己应该看的东西 Ruby--->JRuby Rails ...

    Tags:
  • nutch study from relogin 741 days old

    1. download nutch0.7.2,因为0.9存在一个与lucene兼容的问题, ArrayIndexOutOfBoundsException 该问题的修改方法见http://blog.sina.com.cn/s/blog_537c07f6010009t9.html 2. ...

    Tags:
  • Manage struts.xml from relogin 749 days old

    Pay attention to the struts config file, struts.xml and other sub config files, it's import to make sure that there is no same name actions. Today morning ...

    Tags:
  • study Struts2 关于模块组织机制 from relogin 761 days old

    每个人都有自己的任务,每个人都干好自己任务就能完成大的任务。 模块化的分工可以更好的完成自己的专长,而组织者就负责协调这些模块之间的交互。 这也体现了国内外对“组织者”,或者直接说“领导”的不同认识。 组织者应该也是一种职业,完成一项工作模块的岗位,而不是高高在上的领导。 希望Struts2里的机制能再人类社会中实施。 ...

    Tags:
  • lucene study note from relogin 762 days old

    Lucene使用一种高效的索引机制,并对搜索过程进行优化,从而决定了它的高性能。 高效的索引机制表现在:1.索引中关键字是按照字符顺序排列的,检索时不需要遍历所有内容。2.使用倒排索引可以快速定位文件位置。3.增量的索引分批次地调整索引文件,避免频繁索引更新影响性能。4.复合索引格式减少了索引文件数量,避免了搜索时要打开多个文件造成的资源浪费。5.Lucene对索引使用了压缩技术,减小了索引文件的大小。 搜索过程优化体现在:1.在收集结果的过程中将匹配度低的结果自动过滤掉,将匹配度高的结果输出。2.内存索引速度更高。 英文句子的分词借助空格得到单词。中文的句子是连起来的,分词有三种技术:1.单字切分。2.二分法,即所有连接的两个字都是一个词。3.词库分词。用建立好的词库匹配目标,匹配成功则切分出来。 英文分词的时候也有问题发生,比如词性的变化,单复数的变化,时态变化,大小写变化等待。 Lucene缺省按照自己的相关度算法(score)对结果进行排序。基于其它字段的排序需要在搜索过程中访问存储字段,这样导致检索性能大幅度下降,除了匹配度score外,唯一能用来排序的就是索引记录的ID,所以一个较为高效的实现定制排序的方法是,在索引时,让进入lucene全文的顺序对应一定的规则,在搜索时,让搜索结果按照索引记录的ID进行排序。 可以给某一项内容评分,0~100,初始值是50,用户可以对其内容评分,加分或减分。这个分数为所有用户评分和初始分数的平均分取整。内容提交时间为CD年EF月,GH日IJ时,KL分MN秒,,A~N连接起来形成一个字段,为索引字段,可以按要求每隔一个月或一段时间对内容重新建立一次索引。 这种方法把用户对内容的评价和更新时间作为内容对搜索用户的价值体现出来,首先以用户的评价排序,如果评价相同,则按评价时间排序。 对于数据库的like查询来说,lucene全文搜索引擎优势很大。Lucene将数据源中的数据都通过全文索引一一建立反向索引,而like查询中的索引是没有作用的,要对数据进行GREP式的遍历。Lucene通过词元进行匹配,对语言的支持效果很好。Lucene有匹配度算法,结果出现5次的结果肯定比只出现一次的靠前。 ...

    Tags:

Related tags to "study"

Footer:

The content of this website belongs to a private person, blog.co.uk is not responsible for the content of this website.