`
davice_li
  • 浏览: 90366 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Conllection框架中的Comparator使用笔记

阅读更多

- -

 

这几天一直在弄自己的RSS解析器。一切顺利,RSS的解析很容易。当我将解析的新闻用Lucene进行索引时,我遇到了一个小小的麻烦

这几天一直在弄自己的RSS解析器。一切顺利,RSS的解析很容易。当我将解析的新闻用Lucene进行索引时,我遇到了一个小小的麻烦。
当新闻解析完成后,为了下一步处理的方便,我并没有将解析的新闻全部的索引,而是只索引新出现的新闻,而索引中已有的新闻,则不再索引了。这样,下步检索时,就可以根据索引的时间来判断最新的新闻。代码如下:
reader = IndexReader.open(indexDir); // open existing lucene index
uidIter = reader.terms(new Term("uid", "")); // init uid iterator
Iterator itI = al.iterator();
      while (itI.hasNext()) {
        ItemIF item = (ItemIF) itI.next();
        while (uidIter.term() != null && uidIter.term().field() == "uid" &&
               uidIter.term().text().compareTo(item.getTitle()) < 0) {         
          uidIter.next();         
        }
        if (uidIter.term() != null && uidIter.term().field() == "uid" &&
            uidIter.term().text().compareTo(item.getTitle()) == 0) {
          uidIter.next(); 
        }
        else {
          if (logger.isDebugEnabled()) {
            logger.debug("Add item " + item + " to index.");
          }
          writer.addDocument(RssDocument.makeDocument(item));
        }
      }
可 以看到其中有两个Iterator,一个是Lucene索引中已有新闻的Iterator,一个是新解析的新闻的Iterator。上一段代码就是判断新 解析的新闻是否在索引中存在,如果存在则保留以前的,不存在则加入。这段代码应该说效率很高,只是两个遍历就完成了判断,而不是每一条新闻都去在索引中遍 历一次。但问题来了,要实现上面的代码,必须要保证两个Iterator都是按照新闻标题(Title)的顺序排列。前一个索引的 Iterator,Lucene返回时就已经是排列好了的,用起来倒方便。后一个自己解析的Iterator却是没有排序的。Iterator怎么排序 啊?这个问题以前到没有仔细想过。自己想了很多办法,但考虑效率的话不是很满意,毕竟数据量大时效率还是很重要的。想来想去还是用Java Collenction框架里提供的方法吧。查了一些资料,发现Collection框架下的东东确实做得比较好,其中框架提供的两个实用类 Comparable和Comparator正是我需要的。以前不知道这两个东东是干啥的,原来是用在容器类内部元素排序用的。 ;)
于 是自己写了一个排序的类,并利用java.util.Collections类中的sort()方法对我的新闻集合中的元素进行排序。调用 Collections.sort()时,集合中的元素如果本身没有实现Comparator的话,则需要自己写一个Comparator传到 sort()方法中。我写了一个ItemComparator , 根据新闻的标题来排序。代码如下:
 ...
  public void indexItems(boolean createNewIndex, Collection items) throws java.
      io.IOException {
    ArrayList al = (ArrayList) items;
    Collections.sort(al, new ItemComparator());
...
...
  public static class ItemComparator
      implements Comparator {
    public int compare(Object element1, Object element2) {
      ItemIF item1 = (ItemIF) element1;
      ItemIF item2 = (ItemIF) element2;
      return item1.getTitle().compareTo(item2.getTitle());
    }
  }
ItemIF就是新闻集合中的一个元素。getTitle()方法可以得到新闻的标题。在sort()方法中,将ItemComparator传过去,既可根据新闻标题排序了。
今天又学会了怎么在Collection中实现排序,呵呵,把它记录下来真爽!
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics