下载中心 jar、数据集和配置文件

下载中心

内置数据包的Portable版

为了方便用户,特提供内置了数据包的Portable版,只需在pom.xml加入:

                        
<dependency>
    <groupId>com.hankcs</groupId>
    <artifactId>hanlp</artifactId>
    <version>portable-1.2.8</version>
</dependency>
                        
                        

零配置,即可使用基本功能。

Portable版的基本功能指的是,除CRF分词、依存句法分析外的全部功能。如果用户有自定义的需求, 可以使用hanlp.properties进行配置。Portable版依然可以从hanlp.properties中获取配置信息, 这使得用户可以挂载自定义词典、挂载CRF模型、使用外部词典覆盖内置词典等等。

非Maven工程的话,可以直接下载portable版的jar

jar

jar类库,将其放入classpath中,接着下载数据集和配置文件。

hanlp.jar

data.zip

数据集,下载后解压,通过配置文件与HanLP关联。

data.zip

hanlp.properties

配置文件,编辑第一行root=data的父目录,然后放入classpath

hanlp.properties

sources.jar

推荐同时下载source jar,包含全部文档与注释。

hanlp-sources.jar

jar

兼容Solr5.x、Lucene5.x,提供标准分词,索引分词等接口

hanlp-solr-plugin.jar

sources.jar

推荐同时下载source jar,包含全部文档与注释。

hanlp-solr-plugin-sources.jar

核心词典

data/dictionary/CoreNatureDictionary.txt

来自人民日报2014分词语料库。

BiGram文法词典

data/dictionary/CoreNatureDictionary.ngram.txt

由人民日报2014分词语料库训练而来。

隐马尔可夫模型转移矩阵

data/dictionary/CoreNatureDictionary.tr.txt

由人民日报2014分词语料库训练而来。

人名角色词典

data/dictionary/person/nr.txt

是基于角色标注的中国人名自动识别模块所依赖的词典。

地名角色词典

data/dictionary/place/ns.txt

是基于层叠隐马模型的地名自动识别模块所依赖的词典。

机构名角色词典

data/dictionary/organization/nt.txt

是基于角色标注的中文机构名识别模块所依赖的词典。

用户自定义词典

data/dictionary/custom/CustomDictionary.txt

是一个质量较高的词库,补充了核心词典缺少的新词等。

最大熵依存句法分析模型

data/model/dependency/MaxEntModel.txt.bin

最大熵句法的模型,训练自清华大学语义依存网络语料。

CRF分词模型

data/model/segment/CRFSegmentModel.txt.bin

CRF分词器的模型,训练自人民日报2014分词语料。