中文分(fēn)詞第三方庫

編輯：雲鴉網絡時(shí)間：2021-04-17 09:23

中文分(fēn)詞指的(de)是中文在基本文法上有其特殊性而存在的(de)分(fēn)詞。

分(fēn)詞就是将連續的(de)字序列按照(zhào)一定的(de)規範重新組合成詞序列的(de)過程。我們知道，在英文的(de)行文中，單詞之間是以空格作爲自然分(fēn)界符的(de)，而中文隻是字、句和(hé)段能通(tōng)過明(míng)顯的(de)分(fēn)界符來(lái)簡單劃界，唯獨詞沒有一個(gè)形式上的(de)分(fēn)界符，雖然英文也(yě)同樣存在短語的(de)劃分(fēn)問題，不過在詞這(zhè)一層上，中文比之英文要複雜(zá)得(de)多(duō)、困難得(de)多(duō)。

中文分(fēn)詞第三方庫

1、jieba.NET
jieba.NET是 jieba 中文分(fēn)詞的(de) .NET 版本（C#實現）。當前版本爲 0.37.1，基于 jieba 0.37，目标是提供與 jieba 一緻的(de)功能與接口，但以後可(kě)能會在 jieba 基礎上提供其它擴展功能。當前主要提供分(fēn)詞、詞性标注和(hé)關鍵詞提取功能。

支持三種分(fēn)詞模式

精确模式：試圖将句子最精确地切開，适合文本分(fēn)析；

全模式：把句子中所有的(de)可(kě)以成詞的(de)詞語都掃描出來(lái), 速度非常快(kuài)，但是不能解決歧義；

搜索引擎模式：在精确模式的(de)基礎上，對(duì)長(cháng)詞再次切分(fēn)，提高(gāo)召回率，适合用(yòng)于搜索引擎分(fēn)詞。支持繁體分(fēn)詞,支持自定義詞典.

2、Lucene
是apache軟件基金會發布的(de)一個(gè)開放源代碼的(de)全文檢索引擎工具包，由資深全文檢索專家Doug Cutting所撰寫,它是一個(gè)全文檢索引擎的(de)架構，提供了(le)完整的(de)創建索引和(hé)查詢索引，以及部分(fēn)文本分(fēn)析的(de)引擎.

3、NLPIR漢語分(fēn)詞系統

主要功能包括中文分(fēn)詞；英文分(fēn)詞；詞性标注；命名實體識别；新詞識别；關鍵詞提取；支持用(yòng)戶專業詞典與微博分(fēn)析。NLPIR系統支持多(duō)種編碼、多(duō)種操作系統、多(duō)種開發語言與平台。

中英文混合分(fēn)詞功能

自動對(duì)中文英文信息進行分(fēn)詞與詞性标注功能，涵蓋了(le)中文分(fēn)詞、英文分(fēn)詞、詞性标注、未登錄詞識别與用(yòng)戶詞典等功能。

關鍵詞提取功能

采用(yòng)交叉信息熵的(de)算(suàn)法自動計算(suàn)關鍵詞，包括新詞與已知詞。

新詞識别與自适應分(fēn)詞功能

從較長(cháng)的(de)文本内容中，基于信息交叉熵自動發現新特征語言，并自适應測試語料的(de)語言概率分(fēn)布模型，實現自适應分(fēn)詞。

用(yòng)戶專業詞典功能

可(kě)以單條導入用(yòng)戶詞典，也(yě)可(kě)以批量導入用(yòng)戶詞典。如可(kě)以定“舉報信敏感點”，其中舉報信是用(yòng)戶詞，敏感點是用(yòng)戶自定義的(de)詞性标記。

上一篇：寫一個(gè)搜索引擎需要那些技術知識
下(xià)一篇：百度搜索資訊檢索數據庫的(de)準入标準

技術知識

中文分(fēn)詞第三方庫