中文處理工具簡介

最新內容請至此頁面

https://g0v.hackmd.io/fR51fyEcQYOVIGSCanO3TA

1. 中研院CKIP parser

http://ckipsvr.iis.sinica.edu.tw/

http://parser.iis.sinica.edu.tw/ 

#繁體‬ #斷詞‬ #詞性標記‬ #句型結構‬ ‪#修飾關係‬

1. 有點慢,準確率最高

2. 可透過web service呼叫(詞性較粗)或爬網頁(詞性較細)。

3. 可細分四十多種詞性,如名詞可細分為地方名詞、普通名詞,專有名詞等。

2. stanford parser

http://nlp.stanford.edu/software/lex-parser.shtml 

http://nlp.stanford.edu/software/segmenter.shtml

http://nlp.stanford.edu/software/tagger.shtml

#簡體‬ #斷詞 #詞性標記 #句型結構 #修飾關係 ‪#NER‬

1. 處理繁體建議先轉成簡體以得到較佳效果

2. 可下載單機版,可自己訓練繁體模型(不知道有沒有人分享出來)

3. 支援多種程式語言:JAVA, Python, Ruby, PHP

4. 詞性有十幾種

5. 有NER 具名實體辨識

3. mmseg 斷詞

http://technology.chtsai.org/mmseg/ 

#繁體 #斷詞 ‪#快‬

可下載單機版,可自己訓練繁體模型,可使用自訂字典

4.SCWS 中文分词

http://www.xunsearch.com/scws/

雖然是中國開發者做的,但試過處理正體中文也 OK ,只是詞庫並不是很豐富就是了。詞庫可以擴充,主要針對 PHP 開發者。

5.NLTK

python的自然語言處理包,需要先斷詞

http://www.nltk.org/book/

6.CNLP

師大語言所製作的中文處理整合包(基於NLTK),根據網頁說明,能處理經中研院斷詞、詞性標記過的文本,其他系統處理的斷詞不曉得能不能適用

http://tm.itc.ntnu.edu.tw/CNLP/?q=node/5

7.結巴中文分詞(簡中)

https://github.com/fxsjy/jieba

8. FudanNLP(簡中)

https://github.com/xpqiu/fnlp/

9. Glove

Create word embeddings for further analysis

http://nlp.stanford.edu/projects/glove/

10. OpenCC

繁簡轉換

https://github.com/BYVoid/OpenCC

11. ansj

簡體斷詞

http://www.nlpcn.org/demo

https://github.com/NLPchina/ansj_seg

12. 國教院分詞系統

中研院 CKIP 的衍生系統,據國教院的同仁說,新近詞的收量較大,跑起來也稍快些。

http://120.127.233.228/Segmentor/

另外還附有一個語料索引系統:http://120.127.233.228/Concordancer/

13. cjknife

ref: http://logbot.g0v.tw/channel/g0v.tw/2015-03-26#94

異體字的辨識,輸出範例

cjknife -i 寳

14. Unicode Normalization

主要是用在清理一些看起來長的一樣但實際字碼不同的字

官方定義: http://unicode.org/reports/tr15/

PHP: http://php.net/manual/en/class.normalizer.php

JS: https://github.com/walling/unorm

15.JIEBA 結巴中文斷詞

16.Articut 中文斷詞暨語意詞性標記系統

名詞解釋

1. 句型結構 syntactic structure

主語(主詞),述語(動詞),賓語(受詞),子句,連接詞等

ps. 中英文的句型不一樣,所以括號內的英文句型詞彙只是簡單解釋,非相等。

2. 修飾關係 dependency relation

例句: 猴子喜歡吃香蕉。

ccomp(喜歡-2, 吃-3) =>喜歡是吃的補語

dobj(吃-3, 香蕉-4) => 香蕉是吃的賓語

3. NER, Named Entity Recognition, 具名實體辨識

可以抽取出特定專有名詞,常見的如人名、地名、組織名、數字、時間(time)、日期(date)。

經驗分享與討論

cicilia> 簡體的分詞器用在繁體文章,正確率大概是75%跟95%的差別,除了字典以外,訓練的語料庫影響也很大。繁體也有很多分詞器了。