5/5進度
試爬
https://hackmd.io/gjmx63XfRK2a5HTf_swSfg
想做的事:
開放高品質的數位化檔案,open data 讓關心二二八的人更方便使用、查詢,並且讓一般公民也可以參與,而不只是歷史研究者。
目前已經有的東西:
五萬七千頁,約一萬兩千件的檔案影像檔。但是只有非常模糊的卷標註,例如:內政部警政署(檔案移轉機關),二二八事變(案名),據密告劉君曾參加二二八暴動等情(件名)。裡面的檔案可能混雜不同主題和關鍵字的檔案。
遇到的問題:
1. 想開放,但是因為缺乏人力,標記、下 metadata、下 tag 的速度不夠快。
2. 在思考該怎麼設計資料庫系統,讓民眾方便查詢、瀏覽。是走傳統的欄位,還是可以輸入前 250 字,還是先很破爛的 OCR 讓民眾可以先查詢(因為很多檔案是毛筆字,非常難 OCR)。
國史館想做的實驗:
除了正式官方的檔案查詢系統外,可以試著切一塊出來,讓一般公民自由參與標記、分類或是提想法。例如 OCR 後結果校正、下 tag、下名詞的 annotation 超連結、清理地址對應到地圖座標的資料加上去之類的,成熟後再把資料加回正式系統。因此今天黑客松希望能夠:
1. 討論資料庫、協作標記可以怎麼進行。歡迎對二二八資料有興趣的人,以使用者和參與者的角度討論怎麼開放公眾參與。
2. 討論 open data 格式:歡迎熟悉資料庫和開放資料的技術人,提供架設資料庫的意見。
常見問答
A:國家發展委員會檔案管理局
A:可以,但要先向檔案局申請,檔案管理局會先過濾個資之後,拿到的才能公開
A:比方說有戶籍謄本,檔案局會遮蔽調
例如
A:如果那一份檔案剛好過濾過就會很快
A:在檔案管理局 > 國家檔案資訊網 > 政治檔案應用專區(https://aa.archives.gov.tw/PoliticsSearchIndex.aspx 申請會員後可以瀏覽) 可以找到,但包含228和白色恐怖的主題,並非單純只有228
聯絡人
曉雯
授權方式
文件討論採 CC BY NC
使用資料
資料目前為國史館、檔案館合作,視未來官方開放的授權為主,會盡量開放授權。
專案目前狀態
Idea 發想討論中