中文處理工具簡介

最新內容請至此頁面

https://g0v.hackmd.io/fR51fyEcQYOVIGSCanO3TA

1. 中研院CKIP parser

http://ckipsvr.iis.sinica.edu.tw/

http://parser.iis.sinica.edu.tw/

‪#繁體‬ ‪#斷詞‬ ‪#詞性標記‬ ‪#句型結構‬ ‪#修飾關係‬

1. 有點慢，準確率最高

2. 可透過web service呼叫（詞性較粗）或爬網頁（詞性較細）。

3. 可細分四十多種詞性，如名詞可細分為地方名詞、普通名詞，專有名詞等。

中研院的 CKIP parser 是比較建議使用在台灣語言環境中。但是很多時候分詞結果與辭典辭條的結果是不符合的，主要是因為在建立這個工具時，是依照專業家標記後的詞彙進行決定詞彙詞性。但這個工具也年久失修…
~~我申請帳號一直沒給認證信，工具下載下來也沒動靜，不知那邊出了問題~~
能用了，不過速度有點慢
現在繁體中文分詞器可以做到95%正確率，詞性標記也有90%，其他功能就比較低了。中文的詞性是很複雜的，又可以『轉品』，有的時候詞庫沒有涵蓋到的例子，也parser很難正確標記出來。

2. stanford parser

http://nlp.stanford.edu/software/lex-parser.shtml

http://nlp.stanford.edu/software/segmenter.shtml

http://nlp.stanford.edu/software/tagger.shtml

‪#簡體‬ #斷詞 #詞性標記 #句型結構 #修飾關係 ‪#NER‬

1. 處理繁體建議先轉成簡體以得到較佳效果

2. 可下載單機版，可自己訓練繁體模型（不知道有沒有人分享出來）

3. 支援多種程式語言：JAVA, Python, Ruby, PHP

4. 詞性有十幾種

5. 有NER 具名實體辨識

3. mmseg 斷詞

http://technology.chtsai.org/mmseg/

#繁體 #斷詞 ‪#快‬

可下載單機版，可自己訓練繁體模型，可使用自訂字典

我執行的時候跳出視窗說windows版本不符

4.SCWS 中文分词

http://www.xunsearch.com/scws/

雖然是中國開發者做的，但試過處理正體中文也 OK ，只是詞庫並不是很豐富就是了。詞庫可以擴充，主要針對 PHP 開發者。

5.NLTK

python的自然語言處理包，需要先斷詞

http://www.nltk.org/book/

6.CNLP

師大語言所製作的中文處理整合包(基於NLTK)，根據網頁說明，能處理經中研院斷詞、詞性標記過的文本，其他系統處理的斷詞不曉得能不能適用

http://tm.itc.ntnu.edu.tw/CNLP/?q=node/5

7.結巴中文分詞（簡中）

https://github.com/fxsjy/jieba

8. FudanNLP（簡中）

https://github.com/xpqiu/fnlp/

9. Glove

Create word embeddings for further analysis

http://nlp.stanford.edu/projects/glove/

10. OpenCC

繁簡轉換

https://github.com/BYVoid/OpenCC

11. ansj

簡體斷詞

http://www.nlpcn.org/demo

https://github.com/NLPchina/ansj_seg

12. 國教院分詞系統

中研院 CKIP 的衍生系統，據國教院的同仁說，新近詞的收量較大，跑起來也稍快些。

http://120.127.233.228/Segmentor/

另外還附有一個語料索引系統：http://120.127.233.228/Concordancer/

13. cjknife

ref: http://logbot.g0v.tw/channel/g0v.tw/2015-03-26#94

異體字的辨識，輸出範例

cjknife -i 寳

Information for character 寳 (traditional locale, Unicode domain)
Unicode codepoint: U+5BF3 (23539, character form)
In character domains: Unicode, JISX0208, GlyphInformation, HKSCS, JISX0208_0213, BIG5HKSCS, IICore
Radical index: 40, radical form: ⼧
Stroke count: 19
Phonetic data (GR): bao
Phonetic data (MandarinBraille): ⠃⠖⠄
Phonetic data (MandarinIPA): pau˨˩˦
Phonetic data (Pinyin): bǎo
Phonetic data (WadeGiles): pao³
Semantic variants: 宝, 寶
Z-Variants: 寶
Glyph 0(*), stroke count: 19
⿱宀　　⿱珎　　　　　　　　　　　　　　貝　　　　　　
　⿻冖？　⿰王　　　　　　尔　　　　　　⿱目　　　　八
　　　　⿱一土　　　　⿱⺈小　　　　　⿻口二　　
　　　　　　⿱十　　一　　⿻亅八　　　　　⿱一一
　　　　　　　⿻一丨　　　　⿰？？
Stroke order: ㇔㇔㇖㇐㇐㇑㇐㇒㇖㇚㇒㇔㇑㇕㇐㇐㇐㇒㇔ (D-D-HG H H-S-H P-HG SG P D S-HZ-H-H-H P D)

14. Unicode Normalization

主要是用在清理一些看起來長的一樣但實際字碼不同的字

官方定義： http://unicode.org/reports/tr15/

PHP: http://php.net/manual/en/class.normalizer.php

JS: https://github.com/walling/unorm

15.JIEBA 結巴中文斷詞

介紹簡報：https://speakerdeck.com/fukuball/jieba-jie-ba-zhong-wen-duan-ci

16.Articut 中文斷詞暨語意詞性標記系統

商用等級的，無需自己準備資料做機器學習或模型訓練，可自定字典，也隨時可提出修正需求給原廠。300 元可處理 10 萬字。斷詞同時也做好了中文人名偵測、代名詞推理、語意詞性標記的推理…等。
介紹簡報：https://ppt.cc/fYCnOx
試用網站：https://api.droidtown.co
Github API 專案：https://github.com/Droidtown/ArticutAPI
FB：https://www.facebook.com/Articut

名詞解釋

1. 句型結構 syntactic structure

主語(主詞)，述語(動詞)，賓語(受詞)，子句，連接詞等

ps. 中英文的句型不一樣，所以括號內的英文句型詞彙只是簡單解釋，非相等。

2. 修飾關係 dependency relation

例句：猴子喜歡吃香蕉。

ccomp(喜歡-2, 吃-3) =>喜歡是吃的補語

dobj(吃-3, 香蕉-4) => 香蕉是吃的賓語

3. NER, Named Entity Recognition, 具名實體辨識

可以抽取出特定專有名詞，常見的如人名、地名、組織名、數字、時間(time)、日期(date)。

經驗分享與討論

cicilia> 簡體的分詞器用在繁體文章，正確率大概是75%跟95%的差別，除了字典以外，訓練的語料庫影響也很大。繁體也有很多分詞器了。