Hackpads are smart collaborative documents. Join Hackpad Now.
3/12 萌典/教育部會談紀錄

時間:103年3月12日(星期三)下午2時-4時50分
地點:國家教育研究院台北院區3樓會議室
參與人員:「萌典」創辦人唐鳳老師、臺灣大學外國語文學系高照明副教授、本院編譯發展中心林慶隆主任、丁彥平研究助理、劉寶琦研究助理、李韻如行政助理、本國語文教育研究發展辦公室羅敦英專案助理、魏邦儀專案助理、許淑芬專案助理、陳毓欣專案助理 
記錄:李韻如、劉寶琦
 
一、語料庫授權相關討論:
 
高照明(以下簡稱「高」):針對國家教育研究院要建立的語料庫的內容,基本上是希望開發給民間使用,同時促進產業,卻擔心遭營利使用的兩難?
 
唐鳳(以下簡稱「唐」):兩個建議,第一是以CC非營利授權的方式, 第二是CC share-alike,類似 GPL 之概念,被授權者可做營利使用,但若對內容做了任何修改要釋放回來,日後也可由其他公司接手繼續做。如此,對公部門來說不會喪失掉原本的內容,而在其他情況之下,也有讓別人接手做下去的可能。

在字典方面,建議像臺灣閩南語字典提供給「萌典」的模式,內容禁止修改,不限商業利用;內容提供者可以確保給出去的資料將保留一致性,不會與其他字典混用。而在課程、教科書、併排語料庫的部分,建議允許修改及商業使用,但修改一定要歸還。
 
二、語料之取得相關討論:
 
高:許多當初購買的版權僅限校園使用,現在收錄於語料庫時會擔心侵權的問題,本計畫陳浩然老師以open subtitle的方式來收集口語的資料。另外,考慮利用大愛、民視電視台、好消息的影集等,如該單位願意釋放出來,透過授權來獲得口語的資料,增入語料庫內,對中文及英文的學習都很有幫助。此外VOA(美國之音)的新聞及節目,可透過自動中英演算,來獲取書面語的資料。
 
唐:歐盟、聯合國之文件(有七國語言)、每日中英文之文告(如新加坡)可用。歐洲、美國的政府,許多資源是開放的,若有敏感性與安全問題的資料則是暫緩幾年才開放。但在臺灣會有圖利廠商的疑慮,所以國情與預設不同,這或許是政府可以轉換思考的方向。

目前微軟正推行機器翻譯(auto-translation),應該有大量的例句可以收集成為貴計畫之語料,建議你們與bing搜尋引擎相關人員洽談,說明收集這些例句是公部門做為教育用途,請他們將例句搜尋的結果再授權(re-license)出來,像是創用CC的方式,貴計畫使用時只要具名是由微軟提供的語料即可。若有語料為簡體字的問題,當初的做法是結合兩岸辭典給的同詞異名跟本人寫的模組,兩者相加可以一定程度將簡轉繁,再加上辭典啄木鳥利用網友的校對力量,將簡體例句轉成繁體使用。
 
三、國家教育研究院學術名詞資訊網資料整合於「萌典」的可能性及其他建議:
 
林慶隆主任:目前「萌典」針對的是一般性的詞,學術名詞是否有與萌典整合的可能?另外,前陣子國教院推行在學術名詞網站上的「大家來翻譯」活動,針對英文專有名詞希望民間提供不同語境下的中文譯名,但參與並不踴躍,是否有建議?
 
唐:學術名詞能整合進「萌典」是很好的想法,由國教院來提供內容,整合之可能性很大,也是原本本團隊有過的想法。3月22及29日,「萌典」團隊開會時,歡迎國教院來參加,討論學術名詞可以整合進「萌典」的可能性。

針對「大家來翻譯」此類活動,有以下建議:

  1. 命名(naming)的重要性:活動名稱(關鍵字)要獨特且具辨認性,在搜尋引擎的排名才會前面,現在訊息多數靠口耳相傳,因此命名很重要。
  1. 在網頁程式設計上,盡量以call to action 為主,也就是使用者介面上有單純的按鈕(包括美術設計、視覺顏色等),引導使用者以最單純直接的按鈕就能參與,而非傳統網頁如迷宮難以快速連結目的訊息。
  1. 利用網路生態:由錯誤引出對的解答(以錯引對)往往比尋求無中生有的解答更有效。
  1. 將「修改建議詞彙」、「新增詞彙」的功能更有力的整合在既有介面。
  1. 由開發廠商提供網路服務應用接口(web service api)的項目。
 
四、民間無限創意和力量:政府開放源碼提供內容,由民間開發應用
 
「萌典」起緣係因創辦人唐鳳在美友人葉平先生,為了讓孩子在國外可以用較便利之觸控裝置來學習中文,並考量家長、老師及學生是字典主要使用者,故以教育部重編國語辭典16萬字的豐富內容為基礎,發展出與時並進的 App,可運用於手機及平板電腦,方便查詢、學習。

「萌典」是由來自臺灣民間、中國大陸、及世界各地的開發者所造就,吸引世界各地的使用者,包含簡體字使用者、客語、臺語的學習者等,根據他們的需求而不斷增加功能,並可學習正體字,推展臺灣的軟實力。

民間的力量乃發自於有使用需求而開發,目前政府的做法通常是有資源就放於網路,不一定符合民間使用需求,「零時政府」的發想即是人民對資料的需求由下而上(bottom-up)的概念所發展,落實「還文於民」之精神。

民間的腳步往往更快且更具創意,政府的角色應是開放內容,做民間難以達成的基礎建設,再由民間來開發應用,正向發展,促成更多人使用,才能回歸政府機構的初衷,創造雙贏局面。
 
五、本國語文教育研究發展辦公室提出之討論:
 
(一)雖然「萌典」有明確之版權聲明及使用規範,是否仍然擔心內容會遭盜用?有何因應機制?

唐:其實早在萌典計劃開始之前,重編國語辭典的內容早已在網路上流傳,能做的就是規範若有內容的修改要歸還於出處。

非法下載或盜版猖獗,是因為它的方便性,身為原始資料提供者,應該要從這個角度來思考,要提供最方便的資訊取得管道,比盜版所提供的更便利、更正確(重編國語辭典若有內容修改,「萌典」一個月之內即更新),讓使用者根本不必使用盜版。除此之外,用心於正版的更新、系統維持、雙向溝通(例如:下載正版,未來即自動更新)等機制,以便利性、正確度、更新效率等,來建立無可取代的地位。
 
(二)「萌典」的使用者意見與反饋機制為何?回應使用者的根據是來自於哪裡?

唐:使用者在 Twitter  及 App store 都可留言,匯集所有應用上的問題,由工作人員回應,目前已經解決了84個有效問題,並回應給提問者,剩餘35個問題待討論及解決。「萌典」App更新版本時會公布,哪些更新與新的功能是由於某位使用者所提出才解決的,把功勞(credit)回饋給使用者。 

回應內容乃引用自教育部國語辭典、維基百科、Unicode consortium 之資料,若有其他內容上的問題,則提供給語教辦公室。此外也正在開發設定選單(preference)簡/繁、各式拼音等呈現方式,照顧使用者的不同需求。
 
(三)字型轉換對應之相關討論:

「萌典」字型從 Big-5 轉換到 Unicode (UTF-8) 的結果,資料的正確性很高,(僅四個字沒對應到),若提供給語教辦公室,可節省校對的時間和功夫,建議以「萌典」的對應表為基礎,直接給廠商做取代。「萌典」所開發的程式或資料,皆已拋棄著作權,樂意提供給廠商,並交付安裝在政府的主機上,維護及運作不會中斷。
 
(四)「萌典」分詞上的做法:

唐:在分詞的概念上,斷長詞或短詞,程式可用詞頻為基礎,或依照上下文來決定,並用人工校對來補足機器的限制。 
 
(五)對 Wikipedia 等無設限(open-ended question)並由全民共寫的概念有什麼想法?

唐:這種形式打破了取得資源的侷限性,很適合社會上原本無關聯的存在者形成網狀網路,相互幫助並提供資源,作為跨部門或者跨組織很好的橫向溝通方式。
 
六、相關網頁:
 
演示或提到的萌典作品:

萌典相關團隊的部份:
 
其他朋友們的作品:
 
唐:希望日後無論在應用國家教育研究院請廠商釋出的 Web Service REST API 接口、技術上(如字形、字碼)、網路動員上(如群眾外包),或是新的國語文教學應用部份,都能有許多合作的機會。

Latest change 11 years ago

Reconnecting...

Disconnected

No Authorization

Connecting...
Reestablishing connection...

We're having trouble talking to the Hackpad synchronization server. You may be connecting through an incompatible firewall or proxy server.

We were unable to connect to the Hackpad synchronization server. This may be due to an incompatibility with your web browser or internet connection.

Lost connection with Hackpad. This may be due to a loss of network connectivity. If you close this window you may lose up to 30 seconds of unsaved work.

Server not responding. This may be due to network connectivity issues or high load on the server.

You are no longer allowed to access this pad. Reconnect to request access.

Failed to reconnect.

If this continues to happen, please let us know (opens in new window).

How embarrassing...

We experienced an error on the page that is causing problems with saving your work. Continuing to edit on the page without refreshing your browser would lead to some loss of your work.

If this continues to happen, please let us know (opens in new window).

Heads Up!

This pad is moderated. Your changes will require owner approval.

Insert an Image


or
Tip: you can simply drag&drop images into the editor from your desktop!

Cancel

Stop sharing with ?

This pad is shared with "", so will still be able to access it.
Cancel

Embed This Pad


Embed as

Log in / Sign up

Signing in using Facebook...

Contact Support



Please check out our How-to Guide and FAQ first to see if your question is already answered! :)

If you have a feature request, please add it to this pad. Thanks!