MoeDict - 萌典

https://moedict.tw/

開發方向

今天除了將 a-tsioh 整理的新版英法德文包裝釋出之外,也想開始:

開發者

au, a-tsioh, kcwu, yllan, ethantw, hlb, racklin, pcchen=pektiong, ...

分工與成員

閩南語 羅馬字 輸入界面

endkey:

space 表示完整結束

123456789 表示單一音節結束,有可能會繼續打下一個音節

case study

單字

g (not valid)

gu 顯示 gu*, gú*, gù*, gu̍* (gu̍p,gu̍t,gu̍k,gu̍h)

gu2 顯示 gú-* (遇到數字表示音節已結束)

gú 顯示 gú* gúa, gúng (知道是這個調,可是後面還可能出現其他母音)

si̍t-tsāi 顯示  si̍t-tsāi*

sit8-tsai7 顯示  si̍t-tsāi*

sittsai[space] 顯示  si̍t-tsāi, sit-tsâi, etc (任何可能的斷詞)

which means (my interpretation) :

except for gú -> gúa : are you sure we want this ?

onset and voyels are mandatory, tones and final may be omitted. and we input prefixes only.

如果設計的方向是:打多少羅馬字進來,就顯示跟目前以以輸入的羅馬字「相容」的可能詞彙。

I’m also not sure for the sittsai->sit-tsai, this may enlarge the search space a lot, especially with 入聲 that may be interpreted as onset consonnant

Need to make an index using "toneless format". 打多音節詞彙的時候,許多使用者習慣「無調號無連字符號」的方式。

無調:done

無連字:si-tsai和sit-sai就分不出來,介紹所有的結果會不會奇怪?而且一定會比較慢

** 這是 UI 要怎麼設計的問題,是否讓使用者在可以輸入「不那麼明確的query」然後系統吐出所以可能的相容的結果。要求使用者「正確」的輸入連字符號的結果可能是使用者找不到想找的詞彙(因為不知道正確的寫法是什麼)。

Q:要不要支援 wildcard ’!’ and ’*’

輕音問題

打 ah 要不要顯示 --ah ?

POJ -> TL conversion

ch->ts, chh->tsh, ou->oo, ek->ik, eng->ing, 

羅馬字輸入 as a webservice

query as json {query:’sit8-tsai7’, mode=’<some mode>’}

results as {exact:[string list of 臺語漢字], prefix:[string list], fuzzy:[string list]}

整理<客家話常用詞典>類似