Flickr徽章

www.flickr.com
FlyingskyFu 的項目 前往 FlyingskyFu 的所有相片

生活的足迹

2008-10-25

调整生物钟容易,调整工作效率最高时间区间很难

最近这几天都在写代码。信息检索的老师真狠,布置了写搜索引擎的。本来可以找3个人一起的,但是我不够帅,名字又不好听,没办法了。只好自己单干。

单干就单干,把一些开源库下了下来,包括lucene,htmlparser,itcclas,larbin都在ubuntu下编译一次,再把这些库的homepage上的api文档看一次,以及jar包里的demo,恩,差不多了开写。

现在已经能用larbin抓网页,在通过调用htmlparser来萃取html的文字,然后在lucene下进行indexing和searching。恩简单的原型ok了。

但是search的算法没想好,究竟用哪个relevance scoring 算法好?还是不懂好多。恩。至少肯定了tf,idf,doc length有关就是了。

但是,我发现我只能在夜晚的工作下才有效率,但是这对身体的摧残太大了。死了。调整生物钟容易,调整工作效率最高时间区间很难啊。

写着写着玩了几个小时魔兽,比写代码更加累。崩溃。

3 comments:

  1. 搭搜索引擎并不难 难在所有东西都要自己实现 要是感兴趣你可以自己实现一个爬虫

    ReplyDelete
  2. indexing和searching两个模块中,比如,如何较好的中文分词,还有匹配出来的网页用怎样的relevance scoring算法来给它算出来排序,这个还是得自己搞吧?你以前做过?做过就给我发来looklook啊。

    ReplyDelete
  3. 其实你说的这些如果使用现有的开源或者免费的组件都还算简单 ^_^

    ReplyDelete