中文處理工具簡介

編輯歷史

時間 作者 版本
2019-06-27 15:42 – 15:54 PeterWolf r820 – r1038
顯示 diff
(103 行未修改)
*介紹簡報:https://speakerdeck.com/fukuball/jieba-jie-ba-zhong-wen-duan-ci
- *詞解釋]
+ 16.Articut 中文斷詞暨語意詞性標記系統**商用等級的,無需自己準備資料做機器學習或模型訓練,可自定字典,也隨時可提出修正需求給原廠。300 元可處理 10 萬字。斷詞同時也做好了中文人名偵測、代名詞推理、語意詞性標記的推理…等。
+ 介紹簡報:https://ppt.cc/fYCnOx
+ *試用網站:hhttps://api.droidtown.co *Github API 專案:hhttps://github.com/Droidtown/ArticutAPI
+ *FB:https://www.facebook.com/Articut *詞解釋]
. 句型結構 syntactic structure
主語(主詞),述語(動詞),賓語(受詞),子句,連接詞等
(13 行未修改)
2019-03-07 02:16 – 02:16 張淑貞 r812 – r819
顯示 diff
(3 行未修改)
最新內容請至此頁面
https://g0v.hackmd.io/fR51fyEcQYOVIGSCanO3TA
-
-
-
-
-
-
-
-
-
-
-
-
-
(114 行未修改)
2019-02-11 12:53 – 12:54 che wei liu r804 – r811
顯示 diff
中文處理工具簡介
+
+
+ 最新內容請至此頁面
+ https://g0v.hackmd.io/fR51fyEcQYOVIGSCanO3TA
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
1. 中研院CKIP parser
(112 行未修改)
2015-08-15 08:06 – 08:14 che wei liu r793 – r803
顯示 diff
(94 行未修改)
JS: https://github.com/walling/unorm
- 15.
- https://www.facebook.com/fukuball/posts/1042195225793215
+ 15.JIEBA 結巴中文斷詞
+ *介紹簡報:https://speakerdeck.com/fukuball/jieba-jie-ba-zhong-wen-duan-ci
+
*詞解釋]
. 句型結構 syntactic structure
(14 行未修改)
2015-08-14 00:32 – 00:33 che wei liu r787 – r792
顯示 diff
(93 行未修改)
PHP: http://php.net/manual/en/class.normalizer.php
JS: https://github.com/walling/unorm
+
+ 15.
+ https://www.facebook.com/fukuball/posts/1042195225793215
*詞解釋]
. 句型結構 syntactic structure
(14 行未修改)
2015-04-11 04:22 Hsin-lin Cheng r786
顯示 diff
(88 行未修改)
*       ⿻一丨    ⿰??
*Stroke order: ㇔㇔㇖㇐㇐㇑㇐㇒㇖㇚㇒㇔㇑㇕㇐㇐㇐㇒㇔ (D-D-HG H H-S-H P-HG SG P D S-HZ-H-H-H P D)
- 314. Unicode Normalization
+ 14. Unicode Normalization
主要是用在清理一些看起來長的一樣但實際字碼不同的字
官方定義: http://unicode.org/reports/tr15/
(18 行未修改)
2015-04-02 15:21 Muyueh Lee r785
顯示 diff
(88 行未修改)
*       ⿻一丨    ⿰??
*Stroke order: ㇔㇔㇖㇐㇐㇑㇐㇒㇖㇚㇒㇔㇑㇕㇐㇐㇐㇒㇔ (D-D-HG H H-S-H P-HG SG P D S-HZ-H-H-H P D)
- 14. Unicode Normalization
+ 314. Unicode Normalization
主要是用在清理一些看起來長的一樣但實際字碼不同的字
官方定義: http://unicode.org/reports/tr15/
(18 行未修改)
2015-04-02 13:58 – 13:58 caasi Huang r773 – r784
顯示 diff
(92 行未修改)
官方定義: http://unicode.org/reports/tr15/
PHP: http://php.net/manual/en/class.normalizer.php
+ JS: https://github.com/walling/unorm
*詞解釋]
. 句型結構 syntactic structure
(14 行未修改)
2015-04-02 13:15 – 13:17 kiang r752 – r772
顯示 diff
(88 行未修改)
*       ⿻一丨    ⿰??
*Stroke order: ㇔㇔㇖㇐㇐㇑㇐㇒㇖㇚㇒㇔㇑㇕㇐㇐㇐㇒㇔ (D-D-HG H H-S-H P-HG SG P D S-HZ-H-H-H P D)
+ 14. Unicode Normalization
+ 主要是用在清理一些看起來長的一樣但實際字碼不同的字
+ 官方定義: http://unicode.org/reports/tr15/
+ PHP: http://php.net/manual/en/class.normalizer.php
*詞解釋]
. 句型結構 syntactic structure
(14 行未修改)
2015-03-29 17:09 – 17:12 kiang r724 – r751
顯示 diff
(64 行未修改)
http://120.127.233.228/Segmentor/
另外還附有一個語料索引系統:http://120.127.233.228/Concordancer/
+
+ 13. cjknife
+ ref: http://logbot.g0v.tw/channel/g0v.tw/2015-03-26#94
+ 異體字的辨識,輸出範例
+ cjknife -i 寳
+ *Information for character 寳 (traditional locale, Unicode domain)
+ *Unicode codepoint: U+5BF3 (23539, character form)
+ *In character domains: Unicode, JISX0208, GlyphInformation, HKSCS, JISX0208_0213, BIG5HKSCS, IICore
+ *Radical index: 40, radical form: ⼧
+ *Stroke count: 19
+ *Phonetic data (GR): bao
+ *Phonetic data (MandarinBraille): ⠃⠖⠄
+ *Phonetic data (MandarinIPA): pau˨˩˦
+ *Phonetic data (Pinyin): bǎo
+ *Phonetic data (WadeGiles): pao³
+ *Semantic variants: 宝, 寶
+ *Z-Variants: 寶
+ *Glyph 0(*), stroke count: 19
+ *⿱宀  ⿱珎              貝      
+ * ⿻冖? ⿰王      尔      ⿱目    八
+ *    ⿱一土    ⿱⺈小     ⿻口二  
+ *      ⿱十  一  ⿻亅八     ⿱一一
+ *       ⿻一丨    ⿰??
+ *Stroke order: ㇔㇔㇖㇐㇐㇑㇐㇒㇖㇚㇒㇔㇑㇕㇐㇐㇐㇒㇔ (D-D-HG H H-S-H P-HG SG P D S-HZ-H-H-H P D)
*詞解釋]
. 句型結構 syntactic structure
(14 行未修改)
2015-03-23 10:14 – 10:17 Audrey Tang r683 – r723
顯示 diff
(59 行未修改)
http://www.nlpcn.org/demo
https://github.com/NLPchina/ansj_seg
+
+ 12. 國教院分詞系統
+ 中研院 CKIP 的衍生系統,據國教院的同仁說,新近詞的收量較大,跑起來也稍快些。
+ http://120.127.233.228/Segmentor/
+ 另外還附有一個語料索引系統:http://120.127.233.228/Concordancer/
*詞解釋]
. 句型結構 syntactic structure
(14 行未修改)
2015-03-19 14:39 – 14:41 chienj r628 – r682
顯示 diff
(53 行未修改)
1. GOpenCC
繁簡轉換https://github.com/BYVoid/OpenCC
- [*詞解釋]
+
+
+ 11. ansj
+ 簡體斷詞
+ http://www.nlpcn.org/demo
+ https://github.com/NLPchina/ansj_seg
+ *詞解釋]
. 句型結構 syntactic structure
主語(主詞),述語(動詞),賓語(受詞),子句,連接詞等
(13 行未修改)
2015-03-19 13:42 – 13:47 Yong-Siang Shih r557 – r627
顯示 diff
(14 行未修改)
. stanford parser
http://nlp.stanford.edu/software/lex-parser.shtml
- ‪#簡體‬ #斷詞 #詞性標記 #句型結構 #修飾關係 ‪#NER‬
+
+ http://nlp.stanford.edu/software/segmenter.shtml
+ http://nlp.stanford.edu/software/tagger.shtml‪#簡體‬ #斷詞 #詞性標記 #句型結構 #修飾關係 ‪#NER‬
1. 處理繁體建議先轉成簡體以得到較佳效果
2. 可下載單機版,可自己訓練繁體模型(不知道有沒有人分享出來)
(26 行未修改)
+ 9. Glove
+ Create word embeddings for further analysis
+ http://nlp.stanford.edu/projects/glove/
+ 1. GOpenCC
+ 繁簡轉換https://github.com/BYVoid/OpenCC
[*詞解釋]
. 句型結構 syntactic structure
(14 行未修改)
2014-11-21 16:03 – 16:04 張淵智 r541 – r556
顯示 diff
(26 行未修改)
可下載單機版,可自己訓練繁體模型,可使用自訂字典
- 4.SCWS 中文分词
+ *我執行的時候跳出視窗說windows版本不符4.SCWS 中文分词
http://www.xunsearch.com/scws/
雖然是中國開發者做的,但試過處理正體中文也 OK ,只是詞庫並不是很豐富就是了。詞庫可以擴充,主要針對 PHP 開發者。
(33 行未修改)
2014-11-20 17:03 – 17:03 張淵智 r533 – r540
顯示 diff
(9 行未修改)
*中研院的 CKIP parser 是比較建議使用在台灣語言環境中。但是很多時候分詞結果與辭典辭條的結果是不符合的,主要是因為在建立這個工具時,是依照專業家標記後的詞彙進行決定詞彙詞性。但這個工具也年久失修…
*我申請帳號一直沒給認證信,工具下載下來也沒動靜,不知那邊出了問題
+ *能用了,不過速度有點慢
*現在繁體中文分詞器可以做到95%正確率,詞性標記也有9
%,其他功能就比較低了。中文的詞性是很複雜的,又可以『轉品』,有的時候詞庫沒有涵蓋到的例子,也parser很難正確標記出來。2
(50 行未修改)
2014-11-17 15:22 – 15:23 che wei liu r511 – r532
顯示 diff
(10 行未修改)
*我申請帳號一直沒給認證信,工具下載下來也沒動靜,不知那邊出了問題
*現在繁體中文分詞器可以做到95%正確率,詞性標記也有9
- %,其他功能就比較低了。中文的詞性是很複雜的,又可以『轉品』,有的時候詞庫沒有涵蓋到的例子,也parser很難正確標記出來。2. stanford parser
+ %,其他功能就比較低了。中文的詞性是很複雜的,又可以『轉品』,有的時候詞庫沒有涵蓋到的例子,也parser很難正確標記出來。2
+ . stanford parser
http://nlp.stanford.edu/software/lex-parser.shtml
‪#簡體‬ #斷詞 #詞性標記 #句型結構 #修飾關係 ‪#NER‬
(26 行未修改)
8. FudanNLP(簡中)
https://github.com/xpqiu/fnlp/
-
- [[名詞解釋]]
- 1. 句型結構 syntactic structure
+ [*詞解釋]
+ . 句型結構 syntactic structure
主語(主詞),述語(動詞),賓語(受詞),子句,連接詞等
ps. 中英文的句型不一樣,所以括號內的英文句型詞彙只是簡單解釋,非相等。
(6 行未修改)
3. NER, Named Entity Recognition, 具名實體辨識
可以抽取出特定專有名詞,常見的如人名、地名、組織名、數字、時間(time)、日期(date)。
-
- [[經驗分享與討論]]
- cicilia> 簡體的分詞器用在繁體文章,正確率大概是75%跟95%的差別,除了字典以外,訓練的語料庫影響也很大。繁體也有很多很詞器了。
+ [*驗分享與討論]
+ icilia> 簡體的分詞器用在繁體文章,正確率大概是75%跟95%的差別,除了字典以外,訓練的語料庫影響也很大。繁體也有很多很詞器了。
2014-11-17 11:16 – 11:18 Cicilia Lee r478 – r510
顯示 diff
(9 行未修改)
*中研院的 CKIP parser 是比較建議使用在台灣語言環境中。但是很多時候分詞結果與辭典辭條的結果是不符合的,主要是因為在建立這個工具時,是依照專業家標記後的詞彙進行決定詞彙詞性。但這個工具也年久失修…
*我申請帳號一直沒給認證信,工具下載下來也沒動靜,不知那邊出了問題
- 2. stanford parser
+ *現在繁體中文分詞器可以做到95%正確率,詞性標記也有9
+ %,其他功能就比較低了。中文的詞性是很複雜的,又可以『轉品』,有的時候詞庫沒有涵蓋到的例子,也parser很難正確標記出來。2. stanford parser
http://nlp.stanford.edu/software/lex-parser.shtml
‪#簡體‬ #斷詞 #詞性標記 #句型結構 #修飾關係 ‪#NER‬
(46 行未修改)
[[經驗分享與討論]]
- cicilia> 簡體的分詞器用在繁體文章,正確率大概是75%跟95%的差別,除了字典以外,訓練的語料庫影響也很大。繁體也有很多很多分詞器了。
+ cicilia> 簡體的分詞器用在繁體文章,正確率大概是75%跟95%的差別,除了字典以外,訓練的語料庫影響也很大。繁體也有很多很詞器了。
2014-11-15 15:54 – 16:16 張淵智 r332 – r477
顯示 diff
中文處理工具簡介
-
- *先隨便丟一丟XD
- *為什麼一些 #hashtag 沒出來?
- *已修
- 1. 中研院CKIP parser,
+ 1. 中研院CKIP parser
+ http://ckipsvr.iis.sinica.edu.tw/
http://parser.iis.sinica.edu.tw/
‪#繁體‬ ‪#斷詞‬ ‪#詞性標記‬ ‪#句型結構‬ ‪#修飾關係‬
(2 行未修改)
3. 可細分四十多種詞性,如名詞可細分為地方名詞、普通名詞,專有名詞等。
*中研院的 CKIP parser 是比較建議使用在台灣語言環境中。但是很多時候分詞結果與辭典辭條的結果是不符合的,主要是因為在建立這個工具時,是依照專業家標記後的詞彙進行決定詞彙詞性。但這個工具也年久失修…
+ *我申請帳號一直沒給認證信,工具下載下來也沒動靜,不知那邊出了問題
2. stanford parser
http://nlp.stanford.edu/software/lex-parser.shtml
(10 行未修改)
可下載單機版,可自己訓練繁體模型,可使用自訂字典
+ 4.SCWS 中文分词
http://www.xunsearch.com/scws/
雖然是中國開發者做的,但試過處理正體中文也 OK ,只是詞庫並不是很豐富就是了。詞庫可以擴充,主要針對 PHP 開發者。
-
- CNLTK
- http://tm.itc.ntnu.edu.tw/CNLP/?q=node/5
+ 5.NLTK
+ python的自然語言處理包,需要先斷詞
http://www.nltk.org/book/
- 中研院斷詞系統
- http://ckipsvr.iis.sinica.edu.tw/
+ 6.CNLP
+ 師大語言所製作的中文處理整合包(基於NLTK),根據網頁說明,能處理經中研院斷詞、詞性標記過的文本,其他系統處理的斷詞不曉得能不能適用
+ http://tm.itc.ntnu.edu.tw/CNLP/?q=node/5
- 結巴中文分詞(簡中)
+ 7.結巴中文分詞(簡中)
https://github.com/fxsjy/jieba
+ 8. FudanNLP(簡中)
https://github.com/xpqiu/fnlp/
-
-
-
-
(19 行未修改)
2014-11-15 09:04 – 09:16 August Chao r156 – r331
顯示 diff
(10 行未修改)
2. 可透過web service呼叫(詞性較粗)或爬網頁(詞性較細)。
3. 可細分四十多種詞性,如名詞可細分為地方名詞、普通名詞,專有名詞等。
-
+ *中研院的 CKIP parser 是比較建議使用在台灣語言環境中。但是很多時候分詞結果與辭典辭條的結果是不符合的,主要是因為在建立這個工具時,是依照專業家標記後的詞彙進行決定詞彙詞性。但這個工具也年久失修…
2. stanford parser
http://nlp.stanford.edu/software/lex-parser.shtml
(52 行未修改)
2014-11-14 16:43 – 16:44 che wei liu r140 – r155
顯示 diff
(60 行未修改)
3. NER, Named Entity Recognition, 具名實體辨識
可以抽取出特定專有名詞,常見的如人名、地名、組織名、數字、時間(time)、日期(date)。
+
+
+ [[經驗分享與討論]]
+
+ cicilia> 簡體的分詞器用在繁體文章,正確率大概是75%跟95%的差別,除了字典以外,訓練的語料庫影響也很大。繁體也有很多很多分詞器了。
2014-11-14 09:33 – 09:37 che wei liu r87 – r139
顯示 diff
(2 行未修改)
*先隨便丟一丟XD
*為什麼一些 #hashtag 沒出來?
+ *已修
1. 中研院CKIP parser,
http://parser.iis.sinica.edu.tw/
- ‪#繁體‬ ‪#‎斷詞‬ ‪#‎詞性標記‬ ‪#‎句型結構‬ ‪#‎修飾關係‬
+ ‪#繁體‬ ‪#斷詞‬ ‪#詞性標記‬ ‪#句型結構‬ ‪#修飾關係‬
1. 有點慢,準確率最高
2. 可透過web service呼叫(詞性較粗)或爬網頁(詞性較細)。
(2 行未修改)
2. stanford parser
http://nlp.stanford.edu/software/lex-parser.shtml
- ‪#‎簡體‬ #斷詞 #詞性標記 #句型結構 #修飾關係 ‪#‎NER‬
+ ‪#簡體‬ #斷詞 #詞性標記 #句型結構 #修飾關係 ‪#NER‬
1. 處理繁體建議先轉成簡體以得到較佳效果
2. 可下載單機版,可自己訓練繁體模型(不知道有沒有人分享出來)
(4 行未修改)
3. mmseg 斷詞
http://technology.chtsai.org/mmseg/
- #繁體 #斷詞 ‪#‎快‬
+ #繁體 #斷詞 ‪#快‬
可下載單機版,可自己訓練繁體模型,可使用自訂字典
- [[名詞解釋]]
- 1. 句型結構 syntactic structure
- 主語(主詞),述語(動詞),賓語(受詞),子句,連接詞等
- ps. 中英文的句型不一樣,所以括號內的英文句型詞彙只是簡單解釋,非相等。
- 2. 修飾關係 dependency relation
- 例句: 猴子喜歡吃香蕉。
- ccomp(喜歡-2, 吃-3) =>喜歡是吃的補語
- dobj(吃-3, 香蕉-4) => 香蕉是吃的賓語
- 3. NER, Named Entity Recognition, 具名實體辨識
- 可以抽取出特定專有名詞,常見的如人名、地名、組織名、數字、時間(time)、日期(date)。
http://www.xunsearch.com/scws/
(12 行未修改)
https://github.com/xpqiu/fnlp/
+
+
+
+
+
+
+
+ [[名詞解釋]]
+
+ 1. 句型結構 syntactic structure
+ 主語(主詞),述語(動詞),賓語(受詞),子句,連接詞等
+ ps. 中英文的句型不一樣,所以括號內的英文句型詞彙只是簡單解釋,非相等。
+
+ 2. 修飾關係 dependency relation
+ 例句: 猴子喜歡吃香蕉。
+ ccomp(喜歡-2, 吃-3) =>喜歡是吃的補語
+ dobj(吃-3, 香蕉-4) => 香蕉是吃的賓語
+
+ 3. NER, Named Entity Recognition, 具名實體辨識
+ 可以抽取出特定專有名詞,常見的如人名、地名、組織名、數字、時間(time)、日期(date)。
2014-11-14 09:25 – 09:25 Yong-Siang Shih r85 – r86
顯示 diff
(47 行未修改)
結巴中文分詞(簡中)
https://github.com/fxsjy/jieba
+
+ https://github.com/xpqiu/fnlp/
2014-11-14 08:53 – 08:58 Cicilia Lee r59 – r84
顯示 diff
(1 行未修改)
*先隨便丟一丟XD
+ *為什麼一些 #hashtag 沒出來?
1. 中研院CKIP parser,
http://parser.iis.sinica.edu.tw/
- ‪#‎繁體‬ ‪#‎斷詞‬ ‪#‎詞性標記‬ ‪#‎句型結構‬ ‪#‎修飾關係‬
+ ‪#繁體‬ ‪#‎斷詞‬ ‪#‎詞性標記‬ ‪#‎句型結構‬ ‪#‎修飾關係‬
1. 有點慢,準確率最高
2. 可透過web service呼叫(詞性較粗)或爬網頁(詞性較細)。
(39 行未修改)
2014-11-14 08:39 – 08:46 張淵智 r23 – r58
顯示 diff
中文處理工具簡介
+
+ *先隨便丟一丟XD
+
+ 1. 中研院CKIP parser,
+ http://parser.iis.sinica.edu.tw/
+ ‪#‎繁體‬ ‪#‎斷詞‬ ‪#‎詞性標記‬ ‪#‎句型結構‬ ‪#‎修飾關係‬
+ 1. 有點慢,準確率最高
+ 2. 可透過web service呼叫(詞性較粗)或爬網頁(詞性較細)。
+ 3. 可細分四十多種詞性,如名詞可細分為地方名詞、普通名詞,專有名詞等。
+
+ 2. stanford parser
+ http://nlp.stanford.edu/software/lex-parser.shtml
+ ‪#‎簡體‬ #斷詞 #詞性標記 #句型結構 #修飾關係 ‪#‎NER‬
+ 1. 處理繁體建議先轉成簡體以得到較佳效果
+ 2. 可下載單機版,可自己訓練繁體模型(不知道有沒有人分享出來)
+ 3. 支援多種程式語言:JAVA, Python, Ruby, PHP
+ 4. 詞性有十幾種
+ 5. 有NER 具名實體辨識
+
+ 3. mmseg 斷詞
+ http://technology.chtsai.org/mmseg/
+ #繁體 #斷詞 ‪#‎快‬
+ 可下載單機版,可自己訓練繁體模型,可使用自訂字典
+ [[名詞解釋]]
+ 1. 句型結構 syntactic structure
+ 主語(主詞),述語(動詞),賓語(受詞),子句,連接詞等
+ ps. 中英文的句型不一樣,所以括號內的英文句型詞彙只是簡單解釋,非相等。
+ 2. 修飾關係 dependency relation
+ 例句: 猴子喜歡吃香蕉。
+ ccomp(喜歡-2, 吃-3) =>喜歡是吃的補語
+ dobj(吃-3, 香蕉-4) => 香蕉是吃的賓語
+ 3. NER, Named Entity Recognition, 具名實體辨識
+ 可以抽取出特定專有名詞,常見的如人名、地名、組織名、數字、時間(time)、日期(date)。
+
+ http://www.xunsearch.com/scws/
+ 雖然是中國開發者做的,但試過處理正體中文也 OK ,只是詞庫並不是很豐富就是了。詞庫可以擴充,主要針對 PHP 開發者。
+
+
+ CNLTK
+ http://tm.itc.ntnu.edu.tw/CNLP/?q=node/5
+ http://www.nltk.org/book/
+
+ 中研院斷詞系統
+ http://ckipsvr.iis.sinica.edu.tw/
+
+ 結巴中文分詞(簡中)
+ https://github.com/fxsjy/jieba
2014-11-14 08:13 – 08:20 che wei liu r1 – r22
顯示 diff
- Untitled
-
- This pad text is synchronized as you type, so that everyone viewing this page sees the same text. This allows you to collaborate seamlessly on documents!
+ 中文處理工具簡介
2014-11-14 08:13 (unknown) r0
顯示 diff
+ Untitled
+ This pad text is synchronized as you type, so that everyone viewing this page sees the same text. This allows you to collaborate seamlessly on documents!