MoeDict - 萌典

最後編輯:2013-06-16 建立:2013-06-08 歷史紀錄

 

AUDREY Thttps://moedict.tw/

 

    AUDREY T開發方向

AUDREY T今天除了將 a-tsioh 整理的新版英法德文包裝釋出之外,也想開始:

  • 整理<客家話常用詞典>
    • 上次黑客松取得的原始資料: http://www.audreyt.org/newdict/hakka.tar.gz
    • 需要轉成 https://github.com/g0v/moedict-data-twblg 相容格式
      • 參考其中的 dict-twblg.json,原有欄位意義保持一致下,請任意新增新欄位
      • 例句的格式用 \uFFF9 \uFFFB,如 hakka/9990.html :
        • {"def": "形容力量巨大,氣勢壯闊。",
        • "example": ["\ufff9大浪排山倒海打過來,企在海脣个人險險分佢捲走。\ufffb大浪排山倒海打過來,站在海邊的人差一點被它捲走。"]}
      • PUA 造字可忽略,能轉多少是多少,即使只有 title 都好
    • 客家典語音清單:
      • https://github.com/g0v/moedict-data-hakka/blob/master/mp3-urls.txt
      • 正在轉成 ogg 中 -au
  • 閩南語 拼音 輸入界面
  • 試試新版型。hlb 做了一些開頭:
    • http://moe.hlb.the-hold.handlino.com/
    • https://github.com/audreyt/moedict-webkit/tree/master/ios/www
  • 整合 ethantw 的直排注音樣式
    • https://twitter.com/hlb/status/342664167246921729/photo/1
    • http://ethantw.net/lab/han/css/han.css 國語注音符號(直式)
  • 其他平台 (Win8, MeeGo, XULRunner, ...)
  • ...請自行加上新主意!
  • POCHUNG C<閩南語多語詞典>
    • 資料來源:信望愛輸入法詞庫
    • 詞庫維護軟體:http://wesay.palaso.org/
    • 詞庫 XML schema https://code.google.com/p/lift-standard/
    • sync 信望愛輸入法詞庫的方法
      • https://bitbucket.org/pcchen/nan
      • private repo, 需要 get data 的人請跟 pcchen 說
  • TED C想詢問萌典的開發方向,因個人背景關係。有一段時間喜歡越南文化。了解越南文化的當中發現越南與中華文化的密切關係,甚至越南歷史上曾經一度想要自創【漢喃】文字。且越文其實裡面也有很多古漢字的發音。
  • 東南亞文化系列沙龍─第二場:東南亞語言同根生: https://docs.google.com/forms/d/1RW8sWeRByeERY6EieQG1yAy-hqaJmngF2fC4DvdGics/viewform?pli=1

 

    ET B開發者

AUDREY Tau, a-tsioh, kcwu, yllan, ethantw, hlb, racklin, pcchen=pektiong, ...

 

ET B分工與成員

  • AUDREY TNeedsData: 需要資料(擷取、清理)
  • NeedsDesigner: 需要介面設計
  • 從一個詞和它的注音 + 拼音 (如 https://moedict.tw/uni/%E9%80%9A%E8%A8%8A%E8%87%AA%E7%94%B1 ),畫出結合拼音和直排注音的 CSS 來

 

    AUDREY T閩南語 羅馬字 輸入界面

POCHUNG Cendkey:

space 表示完整結束

123456789 表示單一音節結束,有可能會繼續打下一個音節

 

case study

單字

g (not valid)

gu 顯示 gu*, gú*, gù*, gu̍* (gu̍p,gu̍t,gu̍k,gu̍h)

gu2 顯示 gú-* (遇到數字表示音節已結束)

gú 顯示 gú* gúa, gúng (知道是這個調,可是後面還可能出現其他母音)

si̍t-tsāi 顯示 si̍t-tsāi*

sit8-tsai7 顯示 si̍t-tsāi*

sittsai[space] 顯示 si̍t-tsāi, sit-tsâi, etc (任何可能的斷詞)

 

A-TSIOHwhich means (my interpretation) :

except for gú -> gúa : are you sure we want this ?

onset and voyels are mandatory, tones and final may be omitted. and we input prefixes only.

 

POCHUNG C如果設計的方向是:打多少羅馬字進來,就顯示跟目前以以輸入的羅馬字「相容」的可能詞彙。

 

A-TSIOHI'm also not sure for the sittsai->sit-tsai, this may enlarge the search space a lot, especially with 入聲 that may be interpreted as onset consonnant

 

POCHUNG CNeed to make an index using "toneless format". 打多音節詞彙的時候,許多使用者習慣「無調號無連字符號」的方式。

 

A-TSIOH無調:done

無連字:si-tsai和sit-sai就分不出來,介紹所有的結果會不會奇怪?而且一定會比較慢

POCHUNG C** 這是 UI 要怎麼設計的問題,是否讓使用者在可以輸入「不那麼明確的query」然後系統吐出所以可能的相容的結果。要求使用者「正確」的輸入連字符號的結果可能是使用者找不到想找的詞彙(因為不知道正確的寫法是什麼)。

 

Q:要不要支援 wildcard '!' and '*'

 

輕音問題

打 ah 要不要顯示 --ah ?

A-TSIOH

 

POCHUNG CPOJ -> TL conversion

ch->ts, chh->tsh, ou->oo, ek->ik, eng->ing,

 

A-TSIOH羅馬字輸入 as a webservice

query as json {query:'sit8-tsai7', mode='<some mode>'}

 

results as {exact:[string list of 臺語漢字], prefix:[string list], fuzzy:[string list]}

 

 

整理<客家話常用詞典>類似

 

  • AUDREY Thttps://github.com/g0v/moedict-data-hakka
  • 已完成:造字處理
  • 還需要:華<->客對照、線上語音、詞性