word

AD

如何利用多核提升分词速度

在进行中文分词的时候,我们如何利用多核提升分词速度呢? 计算机很早就进入多核心时代了,不充分利用多核CPU是对计算资源的一种极大的浪费. 在对一段文本进行分词的时候,word分词器的处理步骤如下: 1.把要分词的文本根据 ...
分类:word 标签:word, 多线程, 多核, word分词器, 并行分词, ParallelStream

中文分词之9271组反义词

这9271组反义词出自Java分布式中文分词组件 - word分词,这里列出50组反义词,更多同义词请看这里. 一丘之貉 比众不同 一丝不苟 草草了事 粗心大意 敷衍了事 粗枝大叶 一举两得 事倍功半 顾此失彼 一了百了 ...
分类:word 标签:word, 中文分词, 反义词, 反义处理

一种利用ngram模型来消除歧义的中文分词方法

这里的歧义是指:同样的一句话,可能有两种或者更多的切分方法,这些切分结果,有的正确,有的不正确. 消除歧义的目的就是从切分结果中挑选切分正确的. 假设我们要切分句子:结婚的和尚未结婚的,使用逆向最大匹配和正向最大匹配算法 ...
分类:word 标签:word, 中文分词, ngram, 词义消歧

一种基于词性序列的人名识别方法

在人名识别:[我, 爱, 杨, 尚, 川] 中,爱.杨.尚都是姓,会有多个识别结果,那么我们如何消歧并选择一个最合理的结果呢? 下面看看人名识别:[我, 爱, 杨, 尚, 川] 的计算机分析过程,此过程的分析程序出自Ja ...
分类:word 标签:word, 中文分词, 人名识别, 词性序列

中文分词之11946组同义词

这11946组同义词出自Java分布式中文分词组件 - word分词,这里列出50组同义词,更多同义词请看这里. 一下子 一会儿 一忽儿 转瞬 须臾 一丘之貉 全无分别 半斤八两 泾渭分明 难兄难弟 一丝一毫 一点一滴 ...
分类:word 标签:word, 中文分词, 同义词, 同义处理

Java分布式中文分词组件word分词v1.2发布

word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义.能准确识别英文.数字,以及日期.时间等数量词,能识别人名.地名.组织机构名等未登录词.同时提供了Luce ...
分类:word 标签:lucene, solr, 中文分词, ElasticSearch, word分词

Java应用系统中自动实时检测资源文件内容变化

在Java应用系统中,我们经常需要配置文件来定制系统行为,这些配置文件可能包括:类路径下的文件和文件夹.非类路径下的绝对路径和相对路径的文件和文件夹,在分布式环境中,还需要通过HTTP从统一集中的Web服务器中获得配置信 ...
分类:word 标签:word, 自动检测, 实时加载, word分词, 资源加载

Java中文分词组件 - word分词

Java分布式中文分词组件 - word分词 word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义.能准确识别英文.数字,以及日期.时间等数量词,能识别人名. ...
分类:word 标签:中文分词, word分词, word分词器, word分词组件, word分词库, 开源中文分词, Java中文分词
中文分词算法 之 基于词典的逆向最小匹配算法

中文分词算法 之 基于词典的逆向最小匹配算法

在之前的博文中介绍了基于词典的逆向最大匹配算法,比如我们切分句子: 中华人民共和国万岁万岁万万岁,使用逆向最大匹配算法的切分结果为:[中华人民共和国, 万岁, 万岁, 万万岁],可以看到,切分出来的词是很长的,粒度很粗, ...
分类:word 标签:中文分词, 基于词典, 逆向最小匹配
中文分词算法 之 基于词典的正向最小匹配算法

中文分词算法 之 基于词典的正向最小匹配算法

在之前的博文中介绍了基于词典的正向最大匹配算法,比如我们切分句子: 中华人民共和国万岁万岁万万岁,使用正向最大匹配算法的切分结果为:[中华人民共和国, 万岁, 万岁, 万万岁],可以看到,切分出来的词是很长的,粒度很粗, ...
分类:word 标签:中文分词, 基于词典, 正向最小匹配
中文分词算法 之 词典机制性能优化与测试

中文分词算法 之 词典机制性能优化与测试

在之前的两篇博文中文分词算法 之 基于词典的正向最大匹配算法和中文分词算法 之 基于词典的逆向最大匹配算法中,我们对分词实现和词典实现都做了优化,本文对词典实现做进一步优化,并和之前的多个实现做一个对比,使用的词典下载地 ...
分类:word 标签:trie, 性能优化, 中文分词, 性能测试, 前缀树
中文分词算法 之 基于词典的逆向最大匹配算法

中文分词算法 之 基于词典的逆向最大匹配算法

在之前的博文中介绍了基于词典的正向最大匹配算法,用了不到50行代码就实现了,然后分析了词典查找算法的时空复杂性,最后使用前缀树来实现词典查找算法,并做了3次优化. 下面我们看看基于词典的逆向最大匹配算法的实现,实验表明, ...
分类:word 标签:中文分词, 基于词典, 逆向最大匹配
中文分词算法 之 基于词典的正向最大匹配算法

中文分词算法 之 基于词典的正向最大匹配算法

基于词典的正向最大匹配算法(最长词优先匹配),算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典. 算法流程图如下: Java实现代码如下: /** * 基于词典的正向最大匹配算法 * @author 杨尚川 ...
分类:word 标签:trie, 中文分词, 正向最大匹配, 基于词典, prefixtrie, 最长词优先匹配

word-Note

1- 当我们把网上的东西复制到 word 中,经常发现里面的段落间的表记不是我们常用的回车符号,而是一个向下的箭头. 我查了一下,发现这个下箭头在word中可以用"shift+Enter"键组合输入. ...
分类:word 标签: