沒有人一起看 g0v 專案 - 阿美語萌典

團隊 Q&A

YA0H 其中一個初衷是「沒有人一起讀 code 」!第二彈是阿美語萌典。 au 開發的萌典是 g0v 最經典的專案之一, README 詳盡,但是用上了一些冷門技術,像是 LiveScript 。阿美語萌典在 miaoski 的手中上線,現在主要開發者是小蟹,未來會如何發展呢?

Q: 可以介紹一下團隊成員嗎?

Lafin Miku

阿美族,原住民族轉型正義委員會 副研究員,阿美語萌典發起人,萌典系統維護統籌。

Weiting Tseng (a.k.a 維庭)

文化工作者。阿美語萌典校對、宣傳與對外公關。

miaoski (a.k.a 喵斯基)

阿美語萌典發起人與系統維護工程師。

小蟹 (a.k.a Jerry Lee, id: wildjcrt)

女人迷工程師,擅長 Ruby / Ruby on Rails。

目前阿美語萌典網站功能開發、架構與維護的主要工程師,同時也負責需求統合和規劃開發進度。

蔡中涵

環球科技大學榮譽教授,目前阿美語萌典字典阿美語貢獻者及字詞維護者,除了提供阿美語字典外,也在詢問阿美語時傳授阿美族語文化知識。

Q: 之前聽小蟹(wildjcrt)說,阿美語萌典團隊報名了「原住民族語言認證」,為什麼會有這樣的念頭?

小蟹:

對我來說,我的 native 是國語和台語,我台語也可以還算流利的溝通,那這兩種語言考認證對我是沒有吸引力的。而阿美語是台灣在地語言之一,但會講的人越來越少,我希望可以盡點力協助保留文化,再加上阿美語對我來說是一門新語言,考認證是有意義的。所以維庭在 7 月大松時提議大家一起去考試後,我想說參與貢獻也一年多了,應該也要學著講,種種原因就促使我答應一起去報名去考試。沒想到還沒學, 9 月大松就被迫上台硬講了 XDD

lafin:

因為有一次大松的時候sing5-hong5說他考過阿美語初級認證,但在場的我們全部沒人考過,所以開始思考我們是不是也要考一張阿美語認證,加強自己對於阿美語的認知。也透過學習阿美語考試的過程中,我們也發現到許多現象,如族語測驗前,各縣市政府會開始考前衝刺班,讓想要考族語認證的人能夠在這段期間熟悉考試題目與規則。

Q: 阿美語萌典要發佈到幾個平台上?

小蟹:

就我所知,目前還活著的有:

死掉的有:

(後來在 miaoski 的努力下, bot 活過來了)

Q: 阿美語萌典和本來的萌典有什麼不同?

小蟹:

我的認知主要有幾大差異:

miaoski:

Q: 最近阿美語萌典移除了對 LiveScript 的依賴,背後的考量是什麼?

小蟹:

這是我下的決定,最主要的考量在於降低新參者上手的難度。我自己本身不是前端,所以不管寫或讀,純 JS 對我來說比較友善;同時根據我的觀察,最近一年多大松時前來協助的工程師,幾乎沒有人是熟悉 LiveScript,常常光是看懂 LiveScript code 就下午 3~4 點了。所以我決定先移除掉這個門檻,希望未來可以有更多前端工程師一起開發維護。

miaoski:

我比較喜歡 LS, 它看起來比較 functional 一點,不過維護的成本真的高。加上 au 的功力比較高,要改動她的 code 困難度也高一點,可以把門檻往下降是個好事。

Q: 對阿美語萌典未來的想像是什麼?

小蟹:

  1. 加入更多的字典來源,像是原民會、千詞表、潘世光博利亞阿漢等等
  2. 加入更多的原住民語,目前的想像也許會先動手的是噶瑪蘭語(看向維庭)
  3. 希望不管是老師或學生,或是想學習阿美語的人,都可以利用阿美語萌典網站找到想要的資訊

miaoski:

  1. 語音辨識
  2. 語音合成 (看向 sing5-hong5)
  3. 像 iTaigi 那樣的「這樣說好」「這樣說不好」

Lafin:

  1. 讓更多南島語語字典推坑。
  2. 目前官方字典修正或除錯上的進效率都非常緩慢,且受限官方於官方認定與別語政策,希望我們能夠打破這項規則,讓阿美語萌典能夠成為眾人協作的模樣,如 iTaigi。

Q: 如果想參與阿美語萌典的開發,該會些什麼技能?

小蟹:

我們有個 hackmd 大概列出了目前已經規劃要做的功能,傳送門 >> 連結

最缺的是前端工程師,因為網站主要的語言是 nodejs。我們在 9 月大松時,獲得來自緬甸設計師的協助,已有設計好的 layout,想找前端工程師協助套版,讓網站視覺更新。

其次是文字人,特別是懂法語、阿美語和國語,這三種只要會一種就歡迎來幫忙。因為我們有很大量的文字校對需要協助。懂法語的人,我們有潘世光博利亞的阿美語法語辭典要校對;懂阿美語的人,可以幫忙看各辭典的族語拼音;懂國語的人就不用說了(笑)。

後端工程師,可以協助處理辭典的正規化,這部份也需要更新,才能讓辭典一直跟上作者的進度。用什麼語言都無所謂,可以處理文字就好,目前專案內已經有 Ruby, Python, Perl, NodeJS XD 歡迎參與大亂鬥。

miaoski:

專案內還有 C (望向 CindyLinz)

如果可能的話,希望找到語言學背景的人,或是對 LSTM and/or HMM 熟的人。但其實 toolkit 都蠻成熟的了,麻煩的還是苦工。

caasi:

補充一下, miaoski 提到以 C 語言寫的部分,是指 CindyLinz 的 StripPhotoIntoRows ,這個工具幫忙把原始資料切成一行一行,方便人工 OCR ,被戲稱為切豆腐。切起來的示意圖如 cut_line_output.jpg

CindyLinz 也為中選會選舉公報寫了類似的工具 BulletinCEC-LocateBlockFromPNG ,如果想入這類坑,可以參考看看。

要怎麼參與阿美語萌典的開發呢?

小蟹:

歡迎大松時來找我們聊天,g0v slack 有 #amis channel,也可以關注我們的粉絲團Github 看看更新。只要人來,永遠會有坑可以讓你妳你跳的!