Java判断中文字符的性能最优方案

kernaling.wong

浏览: 77885 次
性别:
来自: 广州

最近访客更多访客>>

woailiujing588

wjboy49

huangxuebo

xuwenyan

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

开端与场景

接着上一篇文章的地区分词匹配，最近发现有一些内容中全部为英文或者直接就是一些连接URL，理论上根本不可能产生地区特征的关键字，之前的做法却把这些也进行了分词和匹配了。所以一个比较高效的方式就是把文章内容中非中文的字符过滤掉。

集群的数据存储了约8亿的文章，现在进行一次索引的 rebuild .

这涉及了一个对中文字符的判断及过滤了，想必大家对此也很多想法。网上也介绍了几种方式。这里不讨论是否能实现的问题，是讨论实现速度最快的的问题。

方法一：

也是网上最多人使用的方式通过正则表达式，方便又快捷

string.matches( "[\u4e00-\u9fa5]" );

方法二：

也有部分人使用

具体，通过JDK内置的 uncode 变量去判断

private static final boolean isChinese(char c) {
    Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
    if (ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS
      || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS
      || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
      || ub == Character.UnicodeBlock.GENERAL_PUNCTUATION
      || ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION
      || ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS) {
     return true;
    }
    return false;
   }

方法三：

通过找到中文 unicode 的范围，把中文的判断变成简单的 int 判断从而达到最高的性能与效率

        // 中文的 char 范围
	// by kernaling.wong
	private static int cn_min = (int)"一".charAt(0); //\u4e00
	private static int cn_max = (int)"龥".charAt(0); //\u9fa5
        // 方法 3
	// 通过最原始的 unicode 范围判断
	// 把中文变成 int 的判断
	private static final boolean isChinese3(char c) {
	   
		int char_int = (int)c;
		if( char_int < cn_min || char_int > cn_max  ){
			return false;
		}else{
			return true;
		}
		
	}

对比的测试效果

我做了一个三种方式性能对比，在判断 100W 个字符的时间，如下图所示

以下是测试的类文件，复制后，直接可以执行

package com.test.logs;

/**
 * 
 * @author kernaling.wong
 * 
 * 		测试中文判断方式的效率与性能
 *
 */
public class Test {

	// 中文的 char 范围
	// by kernaling.wong
	private static int cn_min = (int)"一".charAt(0); //\u4e00
	private static int cn_max = (int)"龥".charAt(0); //\u9fa5
		
	public static void main(String[] args) {
		
		try{
			
			String s = "你";
			long start = System.currentTimeMillis();
			for(int i=0;i<100*10000;i++){				
				isChinese(s);
			}
			start = System.currentTimeMillis() - start;
			System.out.println("function 1 : " + start);
			
			start = System.currentTimeMillis();
			for(int i=0;i<100*10000;i++){				
				isChinese2(s.charAt(0));
			}
			start = System.currentTimeMillis() - start;
			System.out.println("function 2 : " + start);
			
			
			start = System.currentTimeMillis();
			for(int i=0;i<100*10000;i++){				
				isChinese3(s.charAt(0));
			}
			start = System.currentTimeMillis() - start;
			System.out.println("function 3 : " + start);
			
			
		}catch(Exception ex){
			
			ex.printStackTrace();
			
		}
	}
	
	// 方法 1
	// 通过正则表达式
	private static final boolean isChinese(String c) {
	   return c.matches("[\u4e00-\u9fa5]");
	}
	
	// 方法 2
	// 通过JDK内置的 unicode 变量判断
	private static final boolean isChinese2(char c) {
	    Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
	    if (ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS
	      || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS
	      || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
	      || ub == Character.UnicodeBlock.GENERAL_PUNCTUATION
	      || ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION
	      || ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS) {
	     return true;
	    }
	    return false;
	}
	
	// 方法 3
	// 通过最原始的 unicode 范围判断
	// 把中文变成 int 的判断
	private static final boolean isChinese3(char c) {
	   
		int char_int = (int)c;
		if( char_int < cn_min || char_int > cn_max  ){
			return false;
		}else{
			return true;
		}
		
	}
	
	
}

总结

本来对于这一个中文的判断方式，其实只是在原来的基础上添加一个方法而已，但也正因为这样子导致了性能上有所偏差，在未实现之前，跑 1W 的数据到 solr 用了 19秒，但实现后，同样数据到 solr 用了 9 秒。节省了足足10秒的时间。可能很多人不理解这样子一个简单实现的功能为何劳师动众，在普通的注重功能上实现来说，其实用方法一，方法二，方法三都看不出差别，但对于大数据的集群来说，丝毫的性能差别经过累积却放大很多倍。所以才需要对性能和效率的执着追求。

欢迎连载，请注明来源及作者

http://kernaling-wong.iteye.com/blog/2079091

by kernaling.wong @ 2014.06.13