檢視、分析、利用 data.gov.tw 全站資料集
專案簡介
緣由
data.gov.tw 有提供全站資料集的資料集
http://data.gov.tw/node/6564 政府資料開放平臺資料集清單
有這份資料就可以做些有趣的分析
要解決的問題
以下是天馬行空的發想
- 分析類
- 分析那些 metadata 是否有錯、漏
- 已經有人反應該 dataset 很髒 https://www.facebook.com/groups/odtwn/permalink/1621411874539891/?comment_id=1624639327550479&comment_tracking=%7B%22tn%22%3A%22R%22%7D
- 定期掃描統計那些外連的 link 是否可用、網路速度如何
- 統計資料格式類別(big5? pdf/jpg? 網頁而非 structure data?)
- 自動偵測或手動 label 哪些是 bad opendata practice?
- 譬如 pdf 內是圖檔
- http://data.gov.tw/node/11040 rar -> pdf -> 掃描圖檔
- 譬如 csv 內放 html (例)
- "資料公開" 也拿來當 "開放資料". 這例子太多了.
- 只是若想全站檢視可能要定義怎麼不算開放資料, 我不確定是否有辦法明確界定
- 統計網站上 "我還想要" 的回覆速度及通過比例?
- 不過這要另外 crawl 網站, 可能還要人工判讀
- 針對特定資料類別, 可能可以作更細部的檢查
- 譬如 https://g0v.hackpad.com/oI2cydKYnYy 檢查缺乏公司統編欄位
- 電話、座標、時間等結構化欄位是否格式正確
- 增加更多功能, 提供其他 service
- 讓 user 自行加 label, 評分, star 等功能
- data.gov.tw 有「資料集統計」功能(page view, download count, etc) r及其他基本分類統計, 也許可以玩視覺化
預定使用者
(成品要給誰用、在什麼場合用、怎麼用)
- 分析的結果可以讓大家了解現在資料品質, 也可反饋給 data.gov.tw 團隊作為改善目標
- 也許可以做 data.gov.tw clone 提供額外的功能, 方便 data 使用者
預定功能
(成品要有哪些功能來滿足上述使用情境)
現有類似專案
(現成的是否可以直接使用?或者有什麼不足之處?國外專案可參考?)
- https://github.com/g0v-data/ 有些 data.gov.tw backup
- 之前 ronnywang 有做過類似 data.gov.tw clone, 我忘了網址
- http://sheethub.com/
- 之前已經不只一人抱怨甚至統計過 data.gov.tw 的資料品質, 不過似乎只有單次統計. 若能持續監控更好.
- 發現國發會已經有類似計畫了 https://www.facebook.com/groups/odtwn/permalink/1599788303368915/
相關專案
(衍生自某專案/衍生出某專案/API串接自某專案.)
授權方式
Apache 2
使用資料
http://data.gov.tw/node/6564
專案目前狀態
構想
徵求協作者
發起人/拋磚人:kcwu
其實我只是丟丟想法, 大家可以繼續發想/撿去做
實作細節(非技術背景可跳填)
協作工具
成果展示(規劃文件、雛形/草稿、原型/初稿、正式發佈/完稿)