公民協作國史館二二八檔案資料庫

最後編輯:2018-05-07 建立:2018-05-05 歷史紀錄

 

CHIHAO Y5/5進度

今天人工OCR測試文件:228OCR

周紘宇試爬

https://hackmd.io/gjmx63XfRK2a5HTf_swSfg

 

 

YUN-CHEN C想做的事:

開放高品質的數位化檔案,open data 讓關心二二八的人更方便使用、查詢,並且讓一般公民也可以參與,而不只是歷史研究者。

 

 

目前已經有的東西:

五萬七千頁,約一萬兩千件的檔案影像檔。但是只有非常模糊的卷標註,例如:內政部警政署(檔案移轉機關),二二八事變(案名),據密告劉君曾參加二二八暴動等情(件名)。裡面的檔案可能混雜不同主題和關鍵字的檔案。

 

 

 

 

 

 

 

遇到的問題:

1. 想開放,但是因為缺乏人力,標記、下 metadata、下 tag 的速度不夠快。

2. 在思考該怎麼設計資料庫系統,讓民眾方便查詢、瀏覽。是走傳統的欄位,還是可以輸入前 250 字,還是先很破爛的 OCR 讓民眾可以先查詢(因為很多檔案是毛筆字,非常難 OCR)。

 

國史館想做的實驗:

除了正式官方的檔案查詢系統外,可以試著切一塊出來,讓一般公民自由參與標記、分類或是提想法。例如 OCR 後結果校正、下 tag、下名詞的 annotation 超連結、清理地址對應到地圖座標的資料加上去之類的,成熟後再把資料加回正式系統。因此今天黑客松希望能夠:

 

1. 討論資料庫、協作標記可以怎麼進行。歡迎對二二八資料有興趣的人,以使用者和參與者的角度討論怎麼開放公眾參與。

2. 討論 open data 格式:歡迎熟悉資料庫和開放資料的技術人,提供架設資料庫的意見。

 

周紘宇常見問答

    Q:檔案哪來的

A:國家發展委員會檔案管理局

 

    Q:能不能公開?

A:可以,但要先向檔案局申請,檔案管理局會先過濾個資之後,拿到的才能公開

 

    Q:檔案管理局過濾的範圍?

A:比方說有戶籍謄本,檔案局會遮蔽調

例如

    遮蔽身份證字號

    遮蔽住址

 

    Q:申請的速度呢

A:如果那一份檔案剛好過濾過就會很快

 

    Q:檔案局有哪些已經公開過的資料呢?

A:在檔案管理局 > 國家檔案資訊網 > 政治檔案應用專區(https://aa.archives.gov.tw/PoliticsSearchIndex.aspx 申請會員後可以瀏覽) 可以找到,但包含228和白色恐怖的主題,並非單純只有228

    小蟹 李搜尋結果可以直接點右鍵,選「在新分頁中開啟圖片」,就會取得大圖 XD

 

YUN-CHEN C聯絡人

曉雯

hwchou@drnh.gov.tw

 

IPA C授權方式

YUN-CHEN C文件討論採 CC BY NC

 

IPA C使用資料

YUN-CHEN C資料目前為國史館、檔案館合作,視未來官方開放的授權為主,會盡量開放授權。

 

ET B專案目前狀態

YUN-CHEN CIdea 發想討論中

 

    Johnson Liang 感覺跟 g0v 國家寶藏專案的「鑑定小隊」做的事情一模一樣?
    Johnson LiangFrom 官網說明:https://www.nationaltreasure.tw/participants/volunteers
    Johnson Liang鑑定小隊
    Johnson Liang任務:將國家寶藏資料庫的文件進行數位化、勘誤與翻譯
    Johnson Liang適合:善於文書處理、喜愛室內活動、鄉民
    Johnson Liang優點:修身養性的細心、打字速度進步、電腦前即可貢獻的參與感
    Johnson Liang
    Johnson Liang資料庫呈現可以參考國家寶藏的「寶藏庫」介面,我覺得一樣屬於 crowd-sourced OCR 的範疇:
    Johnson Liang列表 - https://www.nationaltreasure.tw/treasure
    Johnson Liang單一文件與志工打字並陳 - https://www.nationaltreasure.tw/documents/8f796840-88eb-11e7-b3cb-0fa397c90bdd
    Johnson Liang
    Johnson Liang正與檔案局協調後續事宜

    YUN-CHEN C討論事項