臺語語音轉文字輸入法

最後編輯:2016-10-01 建立:2016-08-16 歷史紀錄

薛丞宏提案人:薛丞宏

莊文龍許嘉勇(鹿港腔)、

莊文龍(宜蘭腔)先生

顧問:POCHUNG PEKTIONG CHEN教授、潘科元教授、Liz Lim

所有成員陸續邀請加入中~~聯絡人win3798@gmail.com莊文龍0911217668

 

薛丞宏10/1的萌典松:http://moe.kktix.cc/events/moedict-10-1

 

PH.KForvo 現成閩南語(有的是福建的)語音語料:http://zh.forvo.com/languages/nan/(CC BY-NC-SA 3.0)

 

    薛丞宏目標

薛丞宏做臺語語音辨識

  • 使用的情境是?
    • 語音輸入法
    • 規句?
    • 一個詞?
    • 平常時講話?
      薛丞宏宜蘭腔臺南腔金門腔鹿港腔所有腔口攏會使通用!
      薛丞宏手機輸入&衛星導航
      薛丞宏電腦拍文件,像咱對話免拍字用麥克就有字出現,留下會議紀錄等。
  • 使用的對象是?

 

    薛丞宏語音辨識

薛丞宏需要語料

  • 臺語音檔,佮對應的臺羅
    • 中研院高明達教授有253點鐘的臺語聽拍
    • 臺羅需要照腔口
  • 大量的臺語語句
    • 臺羅、漢羅攏會使
    • 這馬手頭有欲規百萬句
      • https://github.com/sih4sing5hong5/tai5-uan5_gian5-gi2_hok8-bu7/wiki/Taiwanese-Corpus%E8%AA%9E%E6%96%99

技術

  • 軟體
    • HTK、kaldi, CMU Sphinx
      A-TsiohHTK is not Open Source, and reuse of modified version seems uneasy)
      莊文龍我是希望借重GOOGLE技術,目前請國內專家先試做,若有法度就免靠GOOGLE。

 

  • 有佇用上新深度學習做語音辨識的老師
    • 曹昱,陳信宏,李琳山,簡仁宗,陳柏琳

 

    薛丞宏分工

薛丞宏錄臺語音檔

  1. 準備語句,有漢字佮臺羅
    1. 莊文龍 稿部分我想對臺語歌詞先做https://www.facebook.com/groups/922800454445724/
    2. 教育部臺語常用典例句,您敢會使予我所有例句的Excel檔案?
    3. 其他文獻,或辭典必做的建議。我感覺初期若做到以上兩種應該就真豐富囉?
    4. Taiwanese http://163.20.42.2/country/FIVE_LANG/5L/M/mn/A.html 五語快譯通已有文稿語音
    5. 教育部臺語常用典 http://blog.ilc.edu.tw/blog/blog/3860/post/37836/190706
      1. 薛丞宏18207words http://blog.ilc.edu.tw/blog/gallery/3860/3860-770766.doc
    6. 教育部臺語朗讀文章&聲音檔 http://163.17.109.129/language/old/%E9%96%A9%E8%AA%9E%E6%9C%97%E8%AE%80.htm
    7. 錄家己捌寫過的文章
      1. 講的較順,較口語
      2. 閣念一擺,就會知影文章有佗位會當閣進步
      3. 有一个機會整理家己的文章
    8. 揣囡仔冊來錄
      1. 閣會當有別的用途
    薛丞宏教育部辭典: https://github.com/g0v/moedict-data-twblg/tree/master/uni
    薛丞宏用歌詞、例句,錄出來的語氣、講語速度可能會無仝
    薛丞宏會當麻煩先佇「目標」彼爿整理,咱錄音較有效率
    薛丞宏
    薛丞宏恁若是
  1. 做網頁用電腦錄音,抑是做app用手機仔錄音~~這个部分我會當請啥人先做?
    • 100句做伙唸,毋過逐句中央閬較久咧
      • 無一定逐擺攏愛100,50、70、30句攏會使,免逐擺攏仝款、只是愛記錄是佗幾句
    • 有wav檔上好,盡量莫壓縮做mp3
    • 取樣頻率盡量選48000HZ
    薛丞宏我做一個簡單的網站,予逐家傳音檔
    莊文龍非常感謝!錄音順序可能請先思考好a~f佗一項先做,我才來排。
    薛丞宏https://github.com/sih4sing5hong5/TaiwaneseInputMethod
    薛丞宏http://錄音檔.語音輸入法.意傳.台灣/
    莊文龍若有老師先錄音,先加減用。
    薛丞宏網路頂錄音,工足大的,
    薛丞宏我這馬無法度做,建議10/1去萌典松報告,揣別的工程師做伙來做
    莊文龍錄音檔案一開始就要wav檔
    莊文龍如果一開始毌是,轉檔的音檔品質就有問題。
    莊文龍取樣頻率盡量選48000HZ

 

 

莊文龍 3.錄好的音照實際發音腔口修正臺羅

4.莊文龍負責整合分配語料錄音部分。

5.願意鬥相共錄音的人員許正輝蔡惟華許嘉勇(鹿港腔)、莊文龍(宜蘭腔)、Ling-ing Koo陳文傑 (宜蘭腔)、劉玉玲、紀品志

    薛丞宏敢有佮逐家講,錄好的音檔,愛用啥物版權釋出予人用?CC0?
    莊文龍遮愛閣通知逐家!!CC0

http://creativecommons.tw/cc0

薛丞宏技術

  • 丞宏會先試HTK佮kaldi
    薛丞宏我10月前會先做出20~30分的作品出來,才看狀況。看後一步欲按怎行
  • 等kaldi有法度接錄音檔後,會當提供予教授,予in做研究

sih4sing5hong5/tai5 uan5_gian5 gi2_kang1 ku7#281