中文分(fēn)詞第三方庫

編輯:雲鴉網絡 時(shí)間:2021-04-17 09:23

中文分(fēn)詞指的(de)是中文在基本文法上有其特殊性而存在的(de)分(fēn)詞。
 
分(fēn)詞就是将連續的(de)字序列按照(zhào)一定的(de)規範重新組合成詞序列的(de)過程。我們知道,在英文的(de)行文中,單詞之間是以空格作爲自然分(fēn)界符的(de),而中文隻是字、句和(hé)段能通(tōng)過明(míng)顯的(de)分(fēn)界符來(lái)簡單劃界,唯獨詞沒有一個(gè)形式上的(de)分(fēn)界符,雖然英文也(yě)同樣存在短語的(de)劃分(fēn)問題,不過在詞這(zhè)一層上,中文比之英文要複雜(zá)得(de)多(duō)、困難得(de)多(duō)。

中文分(fēn)詞第三方庫
 
1、jieba.NET
jieba.NET是 jieba 中文分(fēn)詞的(de) .NET 版本(C#實現)。當前版本爲 0.37.1,基于 jieba 0.37,目标是提供與 jieba 一緻的(de)功能與接口,但以後可(kě)能會在 jieba 基礎上提供其它擴展功能。當前主要提供分(fēn)詞、詞性标注和(hé)關鍵詞提取功能。
 
支持三種分(fēn)詞模式
精确模式:試圖将句子最精确地切開,适合文本分(fēn)析;
全模式:把句子中所有的(de)可(kě)以成詞的(de)詞語都掃描出來(lái), 速度非常快(kuài),但是不能解決歧義;
搜索引擎模式:在精确模式的(de)基礎上,對(duì)長(cháng)詞再次切分(fēn),提高(gāo)召回率,适合用(yòng)于搜索引擎分(fēn)詞。支持繁體分(fēn)詞,支持自定義詞典.
 
2、Lucene
是apache軟件基金會發布的(de)一個(gè)開放源代碼的(de)全文檢索引擎工具包,由資深全文檢索專家Doug Cutting所撰寫,它是一個(gè)全文檢索引擎的(de)架構,提供了(le)完整的(de)創建索引和(hé)查詢索引,以及部分(fēn)文本分(fēn)析的(de)引擎.

3、NLPIR漢語分(fēn)詞系統
主要功能包括中文分(fēn)詞;英文分(fēn)詞;詞性标注;命名實體識别;新詞識别;關鍵詞提取;支持用(yòng)戶專業詞典與微博分(fēn)析。NLPIR系統支持多(duō)種編碼、多(duō)種操作系統、多(duō)種開發語言與平台。
 
中英文混合分(fēn)詞功能
自動對(duì)中文英文信息進行分(fēn)詞與詞性标注功能,涵蓋了(le)中文分(fēn)詞、英文分(fēn)詞、詞性标注、未登錄詞識别與用(yòng)戶詞典等功能。
 
關鍵詞提取功能
采用(yòng)交叉信息熵的(de)算(suàn)法自動計算(suàn)關鍵詞,包括新詞與已知詞。
 
新詞識别與自适應分(fēn)詞功能
從較長(cháng)的(de)文本内容中,基于信息交叉熵自動發現新特征語言,并自适應測試語料的(de)語言概率分(fēn)布模型,實現自适應分(fēn)詞。
 
用(yòng)戶專業詞典功能
可(kě)以單條導入用(yòng)戶詞典,也(yě)可(kě)以批量導入用(yòng)戶詞典。如可(kě)以定“舉報信 敏感點”,其中舉報信是用(yòng)戶詞,敏感點是用(yòng)戶自定義的(de)詞性标記。