中文處理工具簡介

編輯歷史

時間	作者	版本
2019-06-27 15:42 – 15:54	PeterWolf	r820 – r1038
顯示 diff （103 行未修改）介紹簡報：https://speakerdeck.com/fukuball/jieba-jie-ba-zhong-wen-duan-ci - 詞解釋] + 16.Articut 中文斷詞暨語意詞性標記系統*商用等級的，無需自己準備資料做機器學習或模型訓練，可自定字典，也隨時可提出修正需求給原廠。300 元可處理 10 萬字。斷詞同時也做好了中文人名偵測、代名詞推理、語意詞性標記的推理…等。 + 介紹簡報：https://ppt.cc/fYCnOx + 試用網站：hhttps://api.droidtown.co Github API 專案：hhttps://github.com/Droidtown/ArticutAPI + FB：https://www.facebook.com/Articut *詞解釋] . 句型結構 syntactic structure 主語(主詞)，述語(動詞)，賓語(受詞)，子句，連接詞等（13 行未修改）
2019-03-07 02:16 – 02:16	張淑貞	r812 – r819
顯示 diff （3 行未修改）最新內容請至此頁面 https://g0v.hackmd.io/fR51fyEcQYOVIGSCanO3TA - - - - - - - - - - - - - （114 行未修改）
2019-02-11 12:53 – 12:54	che wei liu	r804 – r811
顯示 diff 中文處理工具簡介 + + + 最新內容請至此頁面 + https://g0v.hackmd.io/fR51fyEcQYOVIGSCanO3TA + + + + + + + + + + + + + + + 1. 中研院CKIP parser （112 行未修改）
2015-08-15 08:06 – 08:14	che wei liu	r793 – r803
顯示 diff （94 行未修改） JS: https://github.com/walling/unorm - 15. - https://www.facebook.com/fukuball/posts/1042195225793215 + 15.JIEBA 結巴中文斷詞 + 介紹簡報：https://speakerdeck.com/fukuball/jieba-jie-ba-zhong-wen-duan-ci + 詞解釋] . 句型結構 syntactic structure （14 行未修改）
2015-08-14 00:32 – 00:33	che wei liu	r787 – r792
顯示 diff （93 行未修改） PHP: http://php.net/manual/en/class.normalizer.php JS: https://github.com/walling/unorm + + 15. + https://www.facebook.com/fukuball/posts/1042195225793215 *詞解釋] . 句型結構 syntactic structure （14 行未修改）
2015-04-11 04:22	Hsin-lin Cheng	r786
顯示 diff （88 行未修改） *　　　　　　　⿻一丨　　　　⿰？？ *Stroke order: ㇔㇔㇖㇐㇐㇑㇐㇒㇖㇚㇒㇔㇑㇕㇐㇐㇐㇒㇔ (D-D-HG H H-S-H P-HG SG P D S-HZ-H-H-H P D) - 314. Unicode Normalization + 14. Unicode Normalization 主要是用在清理一些看起來長的一樣但實際字碼不同的字官方定義： http://unicode.org/reports/tr15/ （18 行未修改）
2015-04-02 15:21	Muyueh Lee	r785
顯示 diff （88 行未修改） *　　　　　　　⿻一丨　　　　⿰？？ *Stroke order: ㇔㇔㇖㇐㇐㇑㇐㇒㇖㇚㇒㇔㇑㇕㇐㇐㇐㇒㇔ (D-D-HG H H-S-H P-HG SG P D S-HZ-H-H-H P D) - 14. Unicode Normalization + 314. Unicode Normalization 主要是用在清理一些看起來長的一樣但實際字碼不同的字官方定義： http://unicode.org/reports/tr15/ （18 行未修改）
2015-04-02 13:58 – 13:58	caasi Huang	r773 – r784
顯示 diff （92 行未修改）官方定義： http://unicode.org/reports/tr15/ PHP: http://php.net/manual/en/class.normalizer.php + JS: https://github.com/walling/unorm *詞解釋] . 句型結構 syntactic structure （14 行未修改）
2015-04-02 13:15 – 13:17	kiang	r752 – r772
顯示 diff （88 行未修改） *　　　　　　　⿻一丨　　　　⿰？？ Stroke order: ㇔㇔㇖㇐㇐㇑㇐㇒㇖㇚㇒㇔㇑㇕㇐㇐㇐㇒㇔ (D-D-HG H H-S-H P-HG SG P D S-HZ-H-H-H P D) + 14. Unicode Normalization + 主要是用在清理一些看起來長的一樣但實際字碼不同的字 + 官方定義： http://unicode.org/reports/tr15/ + PHP: http://php.net/manual/en/class.normalizer.php 詞解釋] . 句型結構 syntactic structure （14 行未修改）
2015-03-29 17:09 – 17:12	kiang	r724 – r751
顯示 diff （64 行未修改） http://120.127.233.228/Segmentor/ 另外還附有一個語料索引系統：http://120.127.233.228/Concordancer/ + + 13. cjknife + ref: http://logbot.g0v.tw/channel/g0v.tw/2015-03-26#94 + 異體字的辨識，輸出範例 + cjknife -i 寳 + Information for character 寳 (traditional locale, Unicode domain) + Unicode codepoint: U+5BF3 (23539, character form) + In character domains: Unicode, JISX0208, GlyphInformation, HKSCS, JISX0208_0213, BIG5HKSCS, IICore + Radical index: 40, radical form: ⼧ + Stroke count: 19 + Phonetic data (GR): bao + Phonetic data (MandarinBraille): ⠃⠖⠄ + Phonetic data (MandarinIPA): pau˨˩˦ + Phonetic data (Pinyin): bǎo + Phonetic data (WadeGiles): pao³ + Semantic variants: 宝, 寶 + Z-Variants: 寶 + Glyph 0(), stroke count: 19 + ⿱宀　　⿱珎　　　　　　　　　　　　　　貝　　　　　　 + 　⿻冖？　⿰王　　　　　　尔　　　　　　⿱目　　　　八 + *　　　　⿱一土　　　　⿱⺈小　　　　　⿻口二　　 + *　　　　　　⿱十　　一　　⿻亅八　　　　　⿱一一 + *　　　　　　　⿻一丨　　　　⿰？？ + Stroke order: ㇔㇔㇖㇐㇐㇑㇐㇒㇖㇚㇒㇔㇑㇕㇐㇐㇐㇒㇔ (D-D-HG H H-S-H P-HG SG P D S-HZ-H-H-H P D) 詞解釋] . 句型結構 syntactic structure （14 行未修改）
2015-03-23 10:14 – 10:17	Audrey Tang	r683 – r723
顯示 diff （59 行未修改） http://www.nlpcn.org/demo https://github.com/NLPchina/ansj_seg + + 12. 國教院分詞系統 + 中研院 CKIP 的衍生系統，據國教院的同仁說，新近詞的收量較大，跑起來也稍快些。 + http://120.127.233.228/Segmentor/ + 另外還附有一個語料索引系統：http://120.127.233.228/Concordancer/ *詞解釋] . 句型結構 syntactic structure （14 行未修改）
2015-03-19 14:39 – 14:41	chienj	r628 – r682
顯示 diff （53 行未修改） 1. GOpenCC 繁簡轉換https://github.com/BYVoid/OpenCC - [詞解釋] + + + 11. ansj + 簡體斷詞 + http://www.nlpcn.org/demo + https://github.com/NLPchina/ansj_seg + 詞解釋] . 句型結構 syntactic structure 主語(主詞)，述語(動詞)，賓語(受詞)，子句，連接詞等（13 行未修改）
2015-03-19 13:42 – 13:47	Yong-Siang Shih	r557 – r627
顯示 diff （14 行未修改） . stanford parser http://nlp.stanford.edu/software/lex-parser.shtml - ‪#簡體‬ #斷詞 #詞性標記 #句型結構 #修飾關係 ‪#NER‬ + + http://nlp.stanford.edu/software/segmenter.shtml + http://nlp.stanford.edu/software/tagger.shtml‪#簡體‬ #斷詞 #詞性標記 #句型結構 #修飾關係 ‪#NER‬ 1. 處理繁體建議先轉成簡體以得到較佳效果 2. 可下載單機版，可自己訓練繁體模型（不知道有沒有人分享出來）（26 行未修改） + 9. Glove + Create word embeddings for further analysis + http://nlp.stanford.edu/projects/glove/ + 1. GOpenCC + 繁簡轉換https://github.com/BYVoid/OpenCC [*詞解釋] . 句型結構 syntactic structure （14 行未修改）
2014-11-21 16:03 – 16:04	張淵智	r541 – r556
顯示 diff （26 行未修改）可下載單機版，可自己訓練繁體模型，可使用自訂字典 - 4.SCWS 中文分词 + *我執行的時候跳出視窗說windows版本不符4.SCWS 中文分词 http://www.xunsearch.com/scws/ 雖然是中國開發者做的，但試過處理正體中文也 OK ，只是詞庫並不是很豐富就是了。詞庫可以擴充，主要針對 PHP 開發者。（33 行未修改）
2014-11-20 17:03 – 17:03	張淵智	r533 – r540
顯示 diff （9 行未修改）中研院的 CKIP parser 是比較建議使用在台灣語言環境中。但是很多時候分詞結果與辭典辭條的結果是不符合的，主要是因為在建立這個工具時，是依照專業家標記後的詞彙進行決定詞彙詞性。但這個工具也年久失修… 我申請帳號一直沒給認證信，工具下載下來也沒動靜，不知那邊出了問題 + 能用了，不過速度有點慢現在繁體中文分詞器可以做到95%正確率，詞性標記也有9 %，其他功能就比較低了。中文的詞性是很複雜的，又可以『轉品』，有的時候詞庫沒有涵蓋到的例子，也parser很難正確標記出來。2 （50 行未修改）
2014-11-17 15:22 – 15:23	che wei liu	r511 – r532
顯示 diff （10 行未修改）我申請帳號一直沒給認證信，工具下載下來也沒動靜，不知那邊出了問題現在繁體中文分詞器可以做到95%正確率，詞性標記也有9 - %，其他功能就比較低了。中文的詞性是很複雜的，又可以『轉品』，有的時候詞庫沒有涵蓋到的例子，也parser很難正確標記出來。2. stanford parser + %，其他功能就比較低了。中文的詞性是很複雜的，又可以『轉品』，有的時候詞庫沒有涵蓋到的例子，也parser很難正確標記出來。2 + . stanford parser http://nlp.stanford.edu/software/lex-parser.shtml ‪#簡體‬ #斷詞 #詞性標記 #句型結構 #修飾關係 ‪#NER‬ （26 行未修改） 8. FudanNLP（簡中） https://github.com/xpqiu/fnlp/ - - [[名詞解釋]] - 1. 句型結構 syntactic structure + [詞解釋] + . 句型結構 syntactic structure 主語(主詞)，述語(動詞)，賓語(受詞)，子句，連接詞等 ps. 中英文的句型不一樣，所以括號內的英文句型詞彙只是簡單解釋，非相等。（6 行未修改） 3. NER, Named Entity Recognition, 具名實體辨識可以抽取出特定專有名詞，常見的如人名、地名、組織名、數字、時間(time)、日期(date)。 - - [[經驗分享與討論]] - cicilia> 簡體的分詞器用在繁體文章，正確率大概是75%跟95%的差別，除了字典以外，訓練的語料庫影響也很大。繁體也有很多很詞器了。 + [驗分享與討論] + icilia> 簡體的分詞器用在繁體文章，正確率大概是75%跟95%的差別，除了字典以外，訓練的語料庫影響也很大。繁體也有很多很詞器了。
2014-11-17 11:16 – 11:18	Cicilia Lee	r478 – r510
顯示 diff （9 行未修改）中研院的 CKIP parser 是比較建議使用在台灣語言環境中。但是很多時候分詞結果與辭典辭條的結果是不符合的，主要是因為在建立這個工具時，是依照專業家標記後的詞彙進行決定詞彙詞性。但這個工具也年久失修… 我申請帳號一直沒給認證信，工具下載下來也沒動靜，不知那邊出了問題 - 2. stanford parser + *現在繁體中文分詞器可以做到95%正確率，詞性標記也有9 + %，其他功能就比較低了。中文的詞性是很複雜的，又可以『轉品』，有的時候詞庫沒有涵蓋到的例子，也parser很難正確標記出來。2. stanford parser http://nlp.stanford.edu/software/lex-parser.shtml ‪#簡體‬ #斷詞 #詞性標記 #句型結構 #修飾關係 ‪#NER‬ （46 行未修改） [[經驗分享與討論]] - cicilia> 簡體的分詞器用在繁體文章，正確率大概是75%跟95%的差別，除了字典以外，訓練的語料庫影響也很大。繁體也有很多很多分詞器了。 + cicilia> 簡體的分詞器用在繁體文章，正確率大概是75%跟95%的差別，除了字典以外，訓練的語料庫影響也很大。繁體也有很多很詞器了。
2014-11-15 15:54 – 16:16	張淵智	r332 – r477
顯示 diff 中文處理工具簡介 - - 先隨便丟一丟XD - 為什麼一些＃hashtag 沒出來？ - 已修 - 1. 中研院CKIP parser, + 1. 中研院CKIP parser + http://ckipsvr.iis.sinica.edu.tw/ http://parser.iis.sinica.edu.tw/ ‪#繁體‬ ‪#斷詞‬ ‪#詞性標記‬ ‪#句型結構‬ ‪#修飾關係‬ （2 行未修改） 3. 可細分四十多種詞性，如名詞可細分為地方名詞、普通名詞，專有名詞等。中研院的 CKIP parser 是比較建議使用在台灣語言環境中。但是很多時候分詞結果與辭典辭條的結果是不符合的，主要是因為在建立這個工具時，是依照專業家標記後的詞彙進行決定詞彙詞性。但這個工具也年久失修… + *我申請帳號一直沒給認證信，工具下載下來也沒動靜，不知那邊出了問題 2. stanford parser http://nlp.stanford.edu/software/lex-parser.shtml （10 行未修改）可下載單機版，可自己訓練繁體模型，可使用自訂字典 + 4.SCWS 中文分词 http://www.xunsearch.com/scws/ 雖然是中國開發者做的，但試過處理正體中文也 OK ，只是詞庫並不是很豐富就是了。詞庫可以擴充，主要針對 PHP 開發者。 - - CNLTK - http://tm.itc.ntnu.edu.tw/CNLP/?q=node/5 + 5.NLTK + python的自然語言處理包，需要先斷詞 http://www.nltk.org/book/ - 中研院斷詞系統 - http://ckipsvr.iis.sinica.edu.tw/ + 6.CNLP + 師大語言所製作的中文處理整合包(基於NLTK)，根據網頁說明，能處理經中研院斷詞、詞性標記過的文本，其他系統處理的斷詞不曉得能不能適用 + http://tm.itc.ntnu.edu.tw/CNLP/?q=node/5 - 結巴中文分詞（簡中） + 7.結巴中文分詞（簡中） https://github.com/fxsjy/jieba + 8. FudanNLP（簡中） https://github.com/xpqiu/fnlp/ - - - - （19 行未修改）
2014-11-15 09:04 – 09:16	August Chao	r156 – r331
顯示 diff （10 行未修改） 2. 可透過web service呼叫（詞性較粗）或爬網頁（詞性較細）。 3. 可細分四十多種詞性，如名詞可細分為地方名詞、普通名詞，專有名詞等。 - + *中研院的 CKIP parser 是比較建議使用在台灣語言環境中。但是很多時候分詞結果與辭典辭條的結果是不符合的，主要是因為在建立這個工具時，是依照專業家標記後的詞彙進行決定詞彙詞性。但這個工具也年久失修… 2. stanford parser http://nlp.stanford.edu/software/lex-parser.shtml （52 行未修改）
2014-11-14 16:43 – 16:44	che wei liu	r140 – r155
顯示 diff （60 行未修改） 3. NER, Named Entity Recognition, 具名實體辨識可以抽取出特定專有名詞，常見的如人名、地名、組織名、數字、時間(time)、日期(date)。 + + + [[經驗分享與討論]] + + cicilia> 簡體的分詞器用在繁體文章，正確率大概是75%跟95%的差別，除了字典以外，訓練的語料庫影響也很大。繁體也有很多很多分詞器了。
2014-11-14 09:33 – 09:37	che wei liu	r87 – r139
顯示 diff （2 行未修改）先隨便丟一丟XD 為什麼一些＃hashtag 沒出來？ + *已修 1. 中研院CKIP parser, http://parser.iis.sinica.edu.tw/ - ‪＃繁體‬ ‪＃‎斷詞‬ ‪＃‎詞性標記‬ ‪#‎句型結構‬ ‪#‎修飾關係‬ + ‪#繁體‬ ‪#斷詞‬ ‪#詞性標記‬ ‪#句型結構‬ ‪#修飾關係‬ 1. 有點慢，準確率最高 2. 可透過web service呼叫（詞性較粗）或爬網頁（詞性較細）。（2 行未修改） 2. stanford parser http://nlp.stanford.edu/software/lex-parser.shtml - ‪＃‎簡體‬ ＃斷詞＃詞性標記 #句型結構 #修飾關係 ‪#‎NER‬ + ‪#簡體‬ #斷詞 #詞性標記 #句型結構 #修飾關係 ‪#NER‬ 1. 處理繁體建議先轉成簡體以得到較佳效果 2. 可下載單機版，可自己訓練繁體模型（不知道有沒有人分享出來）（4 行未修改） 3. mmseg 斷詞 http://technology.chtsai.org/mmseg/ - #繁體 #斷詞 ‪#‎快‬ + #繁體 #斷詞 ‪#快‬ 可下載單機版，可自己訓練繁體模型，可使用自訂字典 - [[名詞解釋]] - 1. 句型結構 syntactic structure - 主語(主詞)，述語(動詞)，賓語(受詞)，子句，連接詞等 - ps. 中英文的句型不一樣，所以括號內的英文句型詞彙只是簡單解釋，非相等。 - 2. 修飾關係 dependency relation - 例句：猴子喜歡吃香蕉。 - ccomp(喜歡-2, 吃-3) =>喜歡是吃的補語 - dobj(吃-3, 香蕉-4) => 香蕉是吃的賓語 - 3. NER, Named Entity Recognition, 具名實體辨識 - 可以抽取出特定專有名詞，常見的如人名、地名、組織名、數字、時間(time)、日期(date)。 http://www.xunsearch.com/scws/ （12 行未修改） https://github.com/xpqiu/fnlp/ + + + + + + + + [[名詞解釋]] + + 1. 句型結構 syntactic structure + 主語(主詞)，述語(動詞)，賓語(受詞)，子句，連接詞等 + ps. 中英文的句型不一樣，所以括號內的英文句型詞彙只是簡單解釋，非相等。 + + 2. 修飾關係 dependency relation + 例句：猴子喜歡吃香蕉。 + ccomp(喜歡-2, 吃-3) =>喜歡是吃的補語 + dobj(吃-3, 香蕉-4) => 香蕉是吃的賓語 + + 3. NER, Named Entity Recognition, 具名實體辨識 + 可以抽取出特定專有名詞，常見的如人名、地名、組織名、數字、時間(time)、日期(date)。
2014-11-14 09:25 – 09:25	Yong-Siang Shih	r85 – r86
顯示 diff （47 行未修改）結巴中文分詞（簡中） https://github.com/fxsjy/jieba + + https://github.com/xpqiu/fnlp/
2014-11-14 08:53 – 08:58	Cicilia Lee	r59 – r84
顯示 diff （1 行未修改）先隨便丟一丟XD + 為什麼一些＃hashtag 沒出來？ 1. 中研院CKIP parser, http://parser.iis.sinica.edu.tw/ - ‪＃‎繁體‬ ‪＃‎斷詞‬ ‪＃‎詞性標記‬ ‪#‎句型結構‬ ‪#‎修飾關係‬ + ‪＃繁體‬ ‪＃‎斷詞‬ ‪＃‎詞性標記‬ ‪#‎句型結構‬ ‪#‎修飾關係‬ 1. 有點慢，準確率最高 2. 可透過web service呼叫（詞性較粗）或爬網頁（詞性較細）。（39 行未修改）
2014-11-14 08:39 – 08:46	張淵智	r23 – r58
顯示 diff 中文處理工具簡介 + + *先隨便丟一丟XD + + 1. 中研院CKIP parser, + http://parser.iis.sinica.edu.tw/ + ‪＃‎繁體‬ ‪＃‎斷詞‬ ‪＃‎詞性標記‬ ‪#‎句型結構‬ ‪#‎修飾關係‬ + 1. 有點慢，準確率最高 + 2. 可透過web service呼叫（詞性較粗）或爬網頁（詞性較細）。 + 3. 可細分四十多種詞性，如名詞可細分為地方名詞、普通名詞，專有名詞等。 + + 2. stanford parser + http://nlp.stanford.edu/software/lex-parser.shtml + ‪＃‎簡體‬ ＃斷詞＃詞性標記 #句型結構 #修飾關係 ‪#‎NER‬ + 1. 處理繁體建議先轉成簡體以得到較佳效果 + 2. 可下載單機版，可自己訓練繁體模型（不知道有沒有人分享出來） + 3. 支援多種程式語言：JAVA, Python, Ruby, PHP + 4. 詞性有十幾種 + 5. 有NER 具名實體辨識 + + 3. mmseg 斷詞 + http://technology.chtsai.org/mmseg/ + #繁體 #斷詞 ‪#‎快‬ + 可下載單機版，可自己訓練繁體模型，可使用自訂字典 + [[名詞解釋]] + 1. 句型結構 syntactic structure + 主語(主詞)，述語(動詞)，賓語(受詞)，子句，連接詞等 + ps. 中英文的句型不一樣，所以括號內的英文句型詞彙只是簡單解釋，非相等。 + 2. 修飾關係 dependency relation + 例句：猴子喜歡吃香蕉。 + ccomp(喜歡-2, 吃-3) =>喜歡是吃的補語 + dobj(吃-3, 香蕉-4) => 香蕉是吃的賓語 + 3. NER, Named Entity Recognition, 具名實體辨識 + 可以抽取出特定專有名詞，常見的如人名、地名、組織名、數字、時間(time)、日期(date)。 + + http://www.xunsearch.com/scws/ + 雖然是中國開發者做的，但試過處理正體中文也 OK ，只是詞庫並不是很豐富就是了。詞庫可以擴充，主要針對 PHP 開發者。 + + + CNLTK + http://tm.itc.ntnu.edu.tw/CNLP/?q=node/5 + http://www.nltk.org/book/ + + 中研院斷詞系統 + http://ckipsvr.iis.sinica.edu.tw/ + + 結巴中文分詞（簡中） + https://github.com/fxsjy/jieba
2014-11-14 08:13 – 08:20	che wei liu	r1 – r22
顯示 diff - Untitled - - This pad text is synchronized as you type, so that everyone viewing this page sees the same text. This allows you to collaborate seamlessly on documents! + 中文處理工具簡介
2014-11-14 08:13	(unknown)	r0
顯示 diff + Untitled + This pad text is synchronized as you type, so that everyone viewing this page sees the same text. This allows you to collaborate seamlessly on documents!