公民協作國史館二二八檔案資料庫

5/5進度

今天人工OCR測試文件:228OCR

試爬

https://hackmd.io/gjmx63XfRK2a5HTf_swSfg

想做的事:

開放高品質的數位化檔案,open data 讓關心二二八的人更方便使用、查詢,並且讓一般公民也可以參與,而不只是歷史研究者。

目前已經有的東西:

五萬七千頁,約一萬兩千件的檔案影像檔。但是只有非常模糊的卷標註,例如:內政部警政署(檔案移轉機關),二二八事變(案名),據密告劉君曾參加二二八暴動等情(件名)。裡面的檔案可能混雜不同主題和關鍵字的檔案。

遇到的問題:

1. 想開放,但是因為缺乏人力,標記、下 metadata、下 tag 的速度不夠快。

2. 在思考該怎麼設計資料庫系統,讓民眾方便查詢、瀏覽。是走傳統的欄位,還是可以輸入前 250 字,還是先很破爛的 OCR 讓民眾可以先查詢(因為很多檔案是毛筆字,非常難 OCR)。

國史館想做的實驗:

除了正式官方的檔案查詢系統外,可以試著切一塊出來,讓一般公民自由參與標記、分類或是提想法。例如 OCR 後結果校正、下 tag、下名詞的 annotation 超連結、清理地址對應到地圖座標的資料加上去之類的,成熟後再把資料加回正式系統。因此今天黑客松希望能夠:

1. 討論資料庫、協作標記可以怎麼進行。歡迎對二二八資料有興趣的人,以使用者和參與者的角度討論怎麼開放公眾參與。

2. 討論 open data 格式:歡迎熟悉資料庫和開放資料的技術人,提供架設資料庫的意見。

常見問答

  • Q:檔案哪來的
  • A:國家發展委員會檔案管理局

  • Q:能不能公開?
  • A:可以,但要先向檔案局申請,檔案管理局會先過濾個資之後,拿到的才能公開

  • Q:檔案管理局過濾的範圍?
  • A:比方說有戶籍謄本,檔案局會遮蔽調

    例如

  • 遮蔽身份證字號
  • 遮蔽住址
  • Q:申請的速度呢
  • A:如果那一份檔案剛好過濾過就會很快

  • Q:檔案局有哪些已經公開過的資料呢?
  • A:在檔案管理局 > 國家檔案資訊網  >  政治檔案應用專區(https://aa.archives.gov.tw/PoliticsSearchIndex.aspx 申請會員後可以瀏覽) 可以找到,但包含228和白色恐怖的主題,並非單純只有228

    聯絡人

    曉雯

    hwchou@drnh.gov.tw

    授權方式

    文件討論採 CC BY NC

    使用資料

    資料目前為國史館、檔案館合作,視未來官方開放的授權為主,會盡量開放授權。

    專案目前狀態

    Idea 發想討論中

    討論事項