臺灣言語平臺
編輯歷史
| 時間 | 作者 | 版本 |
|---|---|---|
| 2016-02-17 10:04 – 10:05 | r1548 – r1561 | |
顯示 diff 臺灣言語平臺
+ 資訊技術的部份移去https://g0v.hackpad.com/f4rSgcFTIzz
*計劃目錄
(8 行未修改)
*動機
- *一般人沒有管道可以學母語
- *網路上都是華語的資料
- *提供一般人學母語查母語的所在
- *辭典是有母語基礎的人才有辦法使用
- *初學者需要母語語句、母語發音
*母語工作者需要一個編輯、分享平臺
- *臺灣母語的語言研究、資訊技術常常遇到找不到語料的問題
*母語資料散亂一地
*做研究時不能公開,做完又沒地方公開
*目的
- *提供一般人可以學臺灣母語的資訊技術
- *讓電腦/手機講母語
- *技術:語音合成
- *讓一般人能輕易學會正確寫法
- *輸入「我要吃飯」、「我要呷飯」,顯示「我欲食飯」
- *技術:翻譯/正規化
- *和對母語有興趣的工作合作,收集臺灣母語的語料
- *語句可做例句,有助母語學習
- *技術:收集語句的文字、聲音
- *另外收集詞條,做簡單的辭典
- *辭典用途
- *漢語斷詞
- *南島語平行語料無夠時的翻譯輔助
*提供母語研究者一個編輯平臺
*全部線上處理
(70 行未修改)
|
||
| 2015-01-24 14:14 – 14:19 | r1475 – r1547 | |
顯示 diff(46 行未修改)
*綁FB帳號crowdsourcing,
*拿出語句給每個人修改,並給每個人參與分數,類似plunker的karma
+ *我想這是叫做 Gamificaiton,如果真的要做的話可以做到很高度遊戲化。
*資訊技術
*語言分類、語料對齊
(58 行未修改)
|
||
| 2015-01-24 11:29 – 12:53 | r1058 – r1474 | |
顯示 diff(11 行未修改)
*動機
+ *一般人沒有管道可以學母語
+ *網路上都是華語的資料
+ *提供一般人學母語查母語的所在
+ *辭典是有母語基礎的人才有辦法使用
+ *初學者需要母語語句、母語發音
+ *母語工作者需要一個編輯、分享平臺
*臺灣母語的語言研究、資訊技術常常遇到找不到語料的問題
- *母語工作者需要一個編輯平臺
*母語資料散亂一地
*做研究時不能公開,做完又沒地方公開
*目的
- *收集臺灣母語的文字、聲音語料
- *主要收集語句
+ *提供一般人可以學臺灣母語的資訊技術
+ *讓電腦/手機講母語
+ *技術:語音合成
+ *讓一般人能輕易學會正確寫法
+ *輸入「我要吃飯」、「我要呷飯」,顯示「我欲食飯」
+ *技術:翻譯/正規化
+ *和對母語有興趣的工作合作,收集臺灣母語的語料
+ *語句可做例句,有助母語學習
+ *技術:收集語句的文字、聲音
*另外收集詞條,做簡單的辭典
*辭典用途
*漢語斷詞
*南島語平行語料無夠時的翻譯輔助
- *提供母語工作者一個編輯平臺
+ *提供母語研究者一個編輯平臺
*全部線上處理
*自由選擇是否公開
(57 行未修改)
*臺語言語工具
*台語好像沒有文字。如何處理呢?
+ *不好意思因為兵役隔了有點久才回。漢字和音標預計以教育部的規範為主,http://twblg.dict.edu.tw/holodict_new/index.html
*臺語言語資料庫
(6 行未修改)
|
||
| 2015-01-06 01:39 – 01:41 | r1014 – r1057 | |
顯示 diff(84 行未修改)
*子計劃
*臺語言語工具
+ *台語好像沒有文字。如何處理呢?
*臺語言語資料庫
(6 行未修改)
|
||
| 2015-01-05 05:32 – 07:28 | r852 – r1013 | |
顯示 diff- 臺灣言語語料平臺
+ 臺灣言語平臺
+
+ *計劃目錄
+ *http://hackfoldr.org/tai5-uan5_gian5-gi2_phing5-thai5/
*相關專案
(12 行未修改)
*目的
*收集臺灣母語的文字、聲音語料
- *以語句為單位,和辭典不同
+ *主要收集語句
+ *另外收集詞條,做簡單的辭典
+ *辭典用途
+ *漢語斷詞
+ *南島語平行語料無夠時的翻譯輔助
*提供母語工作者一個編輯平臺
*全部線上處理
(13 行未修改)
*個人語料編輯
*上傳語音、線上切音/聽打
+ *http://otranscribe.com/
+ *https://www.ldc.upenn.edu/language-resources/tools/xtrans
*收集資料形式
(1 行未修改)
*母語語音轉寫文字檔
*變調後的文字檔,同化異化等等作用後文字檔
+ *待討論
+ *母語語音轉寫文字檔有很多形式
+ *只有變調
+ *有變調+同化作用
*母語聲音檔
- *1~3項和華語語料兩兩對應
+ *
+ *資料庫內對應
+ *收集資料形式1~3項和華語語料兩兩對應
*母語聲音和母語文字對照
*母語語音轉寫文字檔和母語文字對照
(2 行未修改)
*華語文字和母語聲音對照
*例如一般電視、廣播字幕和聲音對照
- *第1~3項混外來語
+ *收集資料形式第1~3項混外來語
*混外來語(華語、英語)的文字檔
*像是TGB通訊、FB資訊
(2 行未修改)
*混外來語(華語、英語)的聲音檔
*像是民視連續劇(華語閩南語混雜)
- *待討論
- *母語語音轉寫文字檔有很多形式
- *只有變調
- *有變調+同化作用
-
- *語料收集做法
- *讓使用者新增語料
- *允許網站收集使用者FB語料
-
- *眾人資料庫語料修改做法
- *翻譯
- *給一句華語,翻譯出對應的母語
- *造句
- *改錯字
- *給一句母語,請問哪些是錯字,請改成正確的字
- *投票
- *給許多句母語語句,請問哪幾句用法是對的?
- *可用於1,2不同的答案上
-
- *資訊技術做法
- *語言分類
- *語料對齊
- *bleualign
- *語言模型
- *SRILM
- *斷詞
- *長詞優先
- *翻譯
- *Moses
- *語音辨識
- *HTK
- *語音合成
- *HTS
-
*個人語料編輯做法
(7 行未修改)
*實作
+ *框架/函式庫
*django
+ *綁FB帳號
+ *子計劃
*臺語言語工具
- *綁FB帳號的函式庫
-
-
- *資料來源
- *閩南語
- *母語文字檔
- *母語語音轉寫文字檔
- *母語聲音檔
- *華語文字檔
- *母語聲音和母語文字對照
- *教育部辭典諺語
- *母語語音轉寫文字檔和母語文字對照
- *母語語音轉寫文字檔和母語聲音對照
- *華語文字和母語文字對照
- *教育部辭典例句
- *icorpus
- *https://sites.google.com/site/2014shoatai/home
- *有2012~2014
- *華語文字和母語聲音對照
- *混外來語(華語、英語)的文字檔
- *TGB通訊、FB
- *混外來語(華語、英語)的聲音檔
- *客語
- *母語文字檔
- *母語語音轉寫文字檔
- *母語聲音檔
- *華語文字檔
- *母語聲音和母語文字對照
- *母語語音轉寫文字檔和母語文字對照
- *母語語音轉寫文字檔和母語聲音對照
- *華語文字和母語文字對照
- *華語文字和母語聲音對照
- *混外來語(華語、英語)的文字檔
- *混外來語(華語、英語)的聲音檔
- *族語
- *母語文字檔
- *klokah
- *母語語音轉寫文字檔
- *母語聲音檔
- *華語文字檔
- *母語聲音和母語文字對照
- *母語語音轉寫文字檔和母語文字對照
- *母語語音轉寫文字檔和母語聲音對照
- *華語文字和母語文字對照
- *klokah
- *華語文字和母語聲音對照
- *混外來語(華語、英語)的文字檔
- *混外來語(華語、英語)的聲音檔
- *範本
- *母語文字檔
- *母語聲音檔
- *華語文字檔
- *母語聲音和母語文字對照
- *華語文字和母語文字對照
- *華語文字和母語聲音對照
- *混外來語(華語、英語)的文字檔
- *混外來語(華語、英語)的聲音檔
+ *臺語言語資料庫
*版權處理
(3 行未修改)
*聲音檔
*不公開,做為內部資訊技術訓練語料
-
- 歌仔冊
- *wget
- 白話字典藏
- *ssh
- 甘字典
- 華臺對譯
|
||
| 2014-12-30 12:35 – 12:36 | r824 – r851 | |
顯示 diff(164 行未修改)
*聲音檔
*不公開,做為內部資訊技術訓練語料
+
+ 歌仔冊
+ *wget
+ 白話字典藏
+ *ssh
+ 甘字典
+ 華臺對譯
|
||
| 2014-12-23 07:49 – 07:49 | r819 – r823 | |
顯示 diff(65 行未修改)
*翻譯
*給一句華語,翻譯出對應的母語
+ *造句
*改錯字
*給一句母語,請問哪些是錯字,請改成正確的字
(96 行未修改)
|
||
| 2014-11-27 08:26 – 08:27 | r811 – r818 | |
顯示 diff- 臺灣母語語料庫
+ 臺灣言語語料平臺
*相關專案
(162 行未修改)
|
||
| 2014-11-26 06:54 – 06:59 | r780 – r810 | |
顯示 diff(39 行未修改)
*變調後的文字檔,同化異化等等作用後文字檔
*母語聲音檔
+ *1~3項和華語語料兩兩對應
*母語聲音和母語文字對照
*母語語音轉寫文字檔和母語文字對照
(2 行未修改)
*華語文字和母語聲音對照
*例如一般電視、廣播字幕和聲音對照
+ *第1~3項混外來語
*混外來語(華語、英語)的文字檔
*像是TGB通訊、FB資訊
+ *混外來語(華語、英語)的語音轉寫文字檔
+ *像是民視連續劇(華語閩南語混雜)
*混外來語(華語、英語)的聲音檔
*像是民視連續劇(華語閩南語混雜)
(110 行未修改)
|
||
| 2014-11-26 03:31 – 04:03 | r742 – r779 | |
顯示 diff 臺灣母語語料庫
+
+ *相關專案
+ *新台語運動
+ *https://g0v.hackpad.com/moed7ct-taigi-neologism
+ *TaigiLex
+ *萌典
+ *MoeDict
*動機
(142 行未修改)
*混外來語(華語、英語)的文字檔
*混外來語(華語、英語)的聲音檔
- *
+
*版權處理
*無開放的資料
(4 行未修改)
|
||
| 2014-11-26 01:31 – 02:29 | r67 – r741 | |
顯示 diff- 臺灣母語資料庫
+ 臺灣母語語料庫
+
+ *動機
+ *臺灣母語的語言研究、資訊技術常常遇到找不到語料的問題
+ *母語工作者需要一個編輯平臺
+ *母語資料散亂一地
+ *做研究時不能公開,做完又沒地方公開
*目的
*收集臺灣母語的文字、聲音語料
+ *以語句為單位,和辭典不同
+ *提供母語工作者一個編輯平臺
+ *全部線上處理
+ *自由選擇是否公開
- *資料形式
+ *提供功能
+ *語料收集
+ *每個人可加自己找到的語料
+ *可以讓人公開fb塗鴨牆、母語社團資料
+ *眾人資料庫語料修改
+ *綁FB帳號crowdsourcing,
+ *拿出語句給每個人修改,並給每個人參與分數,類似plunker的karma
+ *資訊技術
+ *語言分類、語料對齊
+ *語言模型、斷詞、翻譯
+ *語音辨識、語音合成
+ *個人語料編輯
+ *上傳語音、線上切音/聽打
+
+ *收集資料形式
*母語文字檔
+ *母語語音轉寫文字檔
+ *變調後的文字檔,同化異化等等作用後文字檔
*母語聲音檔
- *母語聲音和文字檔對照
- *華語和母語文字檔對照
- *
+ *母語聲音和母語文字對照
+ *母語語音轉寫文字檔和母語文字對照
+ *母語語音轉寫文字檔和母語聲音對照
+ *華語文字和母語文字對照
+ *華語文字和母語聲音對照
+ *例如一般電視、廣播字幕和聲音對照
+ *混外來語(華語、英語)的文字檔
+ *像是TGB通訊、FB資訊
+ *混外來語(華語、英語)的聲音檔
+ *像是民視連續劇(華語閩南語混雜)
+ *待討論
+ *母語語音轉寫文字檔有很多形式
+ *只有變調
+ *有變調+同化作用
+ *語料收集做法
+ *讓使用者新增語料
+ *允許網站收集使用者FB語料
- *資料來源
- *現有語料庫
+ *眾人資料庫語料修改做法
+ *翻譯
+ *給一句華語,翻譯出對應的母語
+ *改錯字
+ *給一句母語,請問哪些是錯字,請改成正確的字
+ *投票
+ *給許多句母語語句,請問哪幾句用法是對的?
+ *可用於1,2不同的答案上
- *做法
- *
+ *資訊技術做法
+ *語言分類
+ *語料對齊
+ *bleualign
+ *語言模型
+ *SRILM
+ *斷詞
+ *長詞優先
+ *翻譯
+ *Moses
+ *語音辨識
+ *HTK
+ *語音合成
+ *HTS
- *做法
- *
- *做法
- *
+ *個人語料編輯做法
+ *上傳語音、文字
+ *聽打工具
+ *有頻譜
+ *標文本
+ *多語者
+ *可參考xtrans
+ *https://www.ldc.upenn.edu/language-resources/tools/xtrans
- *做法
+ *實作
+ *django
+ *臺語言語工具
+ *綁FB帳號的函式庫
+
+
+ *資料來源
+ *閩南語
+ *母語文字檔
+ *母語語音轉寫文字檔
+ *母語聲音檔
+ *華語文字檔
+ *母語聲音和母語文字對照
+ *教育部辭典諺語
+ *母語語音轉寫文字檔和母語文字對照
+ *母語語音轉寫文字檔和母語聲音對照
+ *華語文字和母語文字對照
+ *教育部辭典例句
+ *icorpus
+ *https://sites.google.com/site/2014shoatai/home
+ *有2012~2014
+ *華語文字和母語聲音對照
+ *混外來語(華語、英語)的文字檔
+ *TGB通訊、FB
+ *混外來語(華語、英語)的聲音檔
+ *客語
+ *母語文字檔
+ *母語語音轉寫文字檔
+ *母語聲音檔
+ *華語文字檔
+ *母語聲音和母語文字對照
+ *母語語音轉寫文字檔和母語文字對照
+ *母語語音轉寫文字檔和母語聲音對照
+ *華語文字和母語文字對照
+ *華語文字和母語聲音對照
+ *混外來語(華語、英語)的文字檔
+ *混外來語(華語、英語)的聲音檔
+ *族語
+ *母語文字檔
+ *klokah
+ *母語語音轉寫文字檔
+ *母語聲音檔
+ *華語文字檔
+ *母語聲音和母語文字對照
+ *母語語音轉寫文字檔和母語文字對照
+ *母語語音轉寫文字檔和母語聲音對照
+ *華語文字和母語文字對照
+ *klokah
+ *華語文字和母語聲音對照
+ *混外來語(華語、英語)的文字檔
+ *混外來語(華語、英語)的聲音檔
+ *範本
+ *母語文字檔
+ *母語聲音檔
+ *華語文字檔
+ *母語聲音和母語文字對照
+ *華語文字和母語文字對照
+ *華語文字和母語聲音對照
+ *混外來語(華語、英語)的文字檔
+ *混外來語(華語、英語)的聲音檔
*
+ *版權處理
+ *無開放的資料
+ *文字檔
+ *語句打散,沒有上下文即沒有版權
+ *聲音檔
+ *不公開,做為內部資訊技術訓練語料
|
||
| 2014-11-21 06:40 – 07:05 | r5 – r66 | |
顯示 diff 臺灣母語資料庫
- 目的
+ *目的
+ *收集臺灣母語的文字、聲音語料
+ *資料形式
+ *母語文字檔
+ *母語聲音檔
+ *母語聲音和文字檔對照
+ *華語和母語文字檔對照
+ *
- *Current status
- Case 0: Taiwanes Orthog
+
+ *資料來源
+ *現有語料庫
+
+ *做法
+ *
+
+ *做法
+ *
+
+ *做法
+ *
+
+ *做法
+ *
|
||
| 2014-11-21 06:40 | r4 | |
顯示 diff(7 行未修改)
|
||
| 2014-11-21 06:39 – 06:40 | r1 – r3 | |
顯示 diff- Untitled
+ 臺灣母語資料庫
- This pad text is synchronized as you type, so that everyone viewing this page sees the same text. This allows you to collaborate seamlessly on documents!
+ 目的
+
+
+ *Current status
+ Case 0: Taiwanes Orthog
|
||
| 2014-11-21 06:33 | r0 | |
顯示 diff+ Untitled
+ This pad text is synchronized as you type, so that everyone viewing this page sees the same text. This allows you to collaborate seamlessly on documents!
|
||