艾瑞网
声明:艾瑞网作者专栏文章属个人原创内容,仅代表其个人观点,不代表艾瑞网的观点或立场;如需转载请直接注明来源 -常山之子!

    从“洗手机”谈到中文分词技术

    发表于:2009-5-19 22:27:00 阅读:17 评论:0
    0
        今天有消息说,为了杜绝甲型H1N1流感,台湾省花莲一家饭店在大厅放置酒精消毒洗手机让游客洗手。不过,这样贴心举动却意外闹出笑话。一群到花莲游玩的大陆游客却把“消毒洗手机”,误以为是洗手机的机器,一进大厅全都把手机拿去洗,令业者当场傻眼。
        好笑之余,不禁想提醒诸网友,大陆游客之所以将“洗手的机器”误以为“洗手机的机器”,完全是因为“中文分词”在作怪。
        所谓的“中文分词”,是指将连续的中文字的序列按照一定规范重新组合成词的序列的过程。像上述所说的“消毒洗手机”,如果用英文描述,应该是“disinfection Washing”。与中文不同,在英文中,词与词之间是由空格来分开的,所以不会发生游客“洗手机”的笑话;而我们所使用的中文就不同了,在一个句子当中词与词之间没有任何的间隔,而要切分出合乎本意的词序,这就要用到“中文分词”技术了。
        中文分词常用的方法有如下四种:一是正向最大匹配法,即按照每词包含字数先多后少的原则,从左向右切分原字序;二是逆向最大匹配法,也就是按照每词包含字数先少后多的原则,从左向右切分原字序;三是最少切分法,也就是按原字序中切出的词数最少;四是双向匹配法,即正向最大匹配法与逆向最大匹配法的组合。
        以“消毒洗手机”为例,如果按照正向最大匹配法切分,结果是:消毒/洗手/机;如果按照逆向最大匹配法切分,结果则会是:消毒/洗/手机;而如果按照最少切分法,结果又会是:消毒洗手/机。几种切分结果,第一种无疑是最符合本意的。但是几千年所成就的中文历史,博大精深之处在于其切分方法并没有什么规律可循。有数据表明,正向最大匹配法切分的错误率为1/169,而逆向最大匹配法的错误率为1/245,正好与“消毒洗手机”的切分结果相左。
        中文分词技术并不是枯燥贬味的屠龙之技,在现实生活中,其广泛应用于信息检索、自动翻译等领域,特别是在互联网搜索引擎中,中文分词则更是一个极其重要的核心技术。熟练掌握中文分词技术并运用到文档写作中,对于搜索引擎优化、提高网站访问量具有不可替代的作用。
    点击查看该普通作者更多的文章
    发表评论
    抱歉,没有相关的记录!
    数据读取中......
    验证码: 看不清?
    文章(24) | 评论(3) | 访问(2327)
    • 专栏搜索
    关 健 字:
    搜索类型:专家  作者 文章
    离线阅读器订阅地址
    订阅到抓虾 鲜果阅读器订阅图标