Open Data 上架檢核流程

編輯歷史

時間 作者 版本
2016-11-10 09:59 – 10:06 Leo Cheng r1744 – r1775
顯示 diff
(21 行未修改)
*如果解壓縮有多個檔案,進到 [Z]
*PS: 這邊可以列入一些檔名忽略清單,例如 README.txt schema.csv ... 之類的,去掉這些檔案後還有多個檔案才需要進入 [Z]
+ *若是像 http://data.gov.tw/node/6380 這種的,也是直接歸類為[Z]嗎?
*[C] 遇到 JSON
*進行 JSON syntax 檢查,如果檢查失敗直接進到 [Z]
(13 行未修改)
*不認得的 XML 格式,就進到 [X]
*這邊或許可以檢查是否是特定格式的 XML ,就我所知預決算好像有標準 XML 格式,他不會是 table 格式,但是也可以額外標記出來,供預決算研究人員用
+ *這的確是個問題,如果是非table格式的XML到底算不算標準? 又主要欄位應如何判別?
*[E] 遇到 CSV
*強制作一遍 utf-8 轉 big5 再轉回來,如果內容不變表示確定是 utf-8 CSV ,進到 [E1]
(32 行未修改)
2016-11-09 05:54 Chia-chun Yeh r1743
顯示 diff
(3 行未修改)
- 以下內容是供國發會 data.gov.tw 參考由各部會資料承辦人上架資料時,能夠怎麼樣檢核資料是否乾淨
+ 以下內容是供國發會 data.gov.tw 參考由各部會資料承辦人上架資料時,能夠怎麼樣檢核資料是否乾淨[
*[A] 承辦人上傳資料
(66 行未修改)
2016-10-28 03:46 Leo Cheng r1742
顯示 diff
(1 行未修改)
*官方名稱叫做「政府資料品質提升機制」
*目前規劃上為於資料集上架時即進行檢查,以降低產製報告時的系統負擔並提升效率。
+
以下內容是供國發會 data.gov.tw 參考由各部會資料承辦人上架資料時,能夠怎麼樣檢核資料是否乾淨
(68 行未修改)
2016-10-28 02:05 – 02:05 Leo Cheng r1729 – r1741
顯示 diff
Open Data 上架檢核流程
+ *官方名稱叫做「政府資料品質提升機制」
+ *目前規劃上為於資料集上架時即進行檢查,以降低產製報告時的系統負擔並提升效率。
以下內容是供國發會 data.gov.tw 參考由各部會資料承辦人上架資料時,能夠怎麼樣檢核資料是否乾淨
(68 行未修改)
2016-10-26 10:20 – 10:21 Leo Cheng r1709 – r1728
顯示 diff
(60 行未修改)
*加這個是避免平台處理過程誤判將原始資料的一些資訊流失掉,轉換後的資料就是存在平台上面了
*那平臺會需要規劃容量放東西了... 以一個資料資源10MB來估,先前看有到30,
- *使筆資料資源,這樣應該要估到3者可GB的容量,依照這個發展速度,上限應該抓在600GB?下載轉成 CSV 的乾淨資料
+ *使筆資料資源,這樣應該要估到3者可GB的容量,依照這個發展速度,上限應該抓在600GB?
+ *20161026更新:會內仍堅持不保有資料資源以迴避資料同步問題。下載轉成 CSV 的乾淨資料
*平台提供自動轉成 xls, ods, json, xml 等功能,另外可以自動取出欄位列表帶入平台的欄位說明中
*這裡還是要表達會內想遏殺xls的立場XDrz
(5 行未修改)
2016-10-26 03:12 – 03:41 Leo Cheng r1580 – r1708
顯示 diff
(3 行未修改)
*[A] 承辦人上傳資料
+ *這裡會需要強調 data.gov.tw目前沒有保留資料的空間,因此會是對資料資源連結進行下載驗證
*如果是 zip rar 7z 檔,到 [B]
*如果是 json 檔,到 [C]
(2 行未修改)
*如果是 xls, xlsx, ods 檔,到 [F]
*如果是 pdf, doc, docx 檔,到 [Z]
- *如果是 kml, shp 檔 ,到...?
+ *※如果是 API, WebService
+ *※如果是 kml, kmz, shp 檔
+ *※如果是 txt檔
+ *※如果是 其他檔,直接到 [Z] ?
*[B] 遇到壓縮檔 (zip, rar, 7z...)
*解壓縮開來,如果裡面只有一個檔案,以這個檔案回到 [A]
(30 行未修改)
*如果有使用多分頁的話,就進到 [Z]
*如果沒有以上情況,表示是個轉成 csv 也不會流失資訊的 xls 或 ods,就把他轉成 csv 之後進到 [E]
-
-
-
(5 行未修改)
*Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者是 Excel 需求的話,可以下載轉出來的 ods
*使用者可下載承辦上傳的原始資料
- *也就是說這裡會區分為原始資料跟轉換後資料? 那轉換後的資料資源是就放在我們平台囉?
+ *這裡會區分為原始資料跟轉換後資料? 那轉換後的資料資源是就放在我們平台囉?
*加這個是避免平台處理過程誤判將原始資料的一些資訊流失掉,轉換後的資料就是存在平台上面了
- *使用者可下載轉成 CSV 的乾淨資料
+ *那平臺會需要規劃容量放東西了... 以一個資料資源10MB來估,先前看有到30,
+ *使筆資料資源,這樣應該要估到3者可GB的容量,依照這個發展速度,上限應該抓在600GB?下載轉成 CSV 的乾淨資料
*平台提供自動轉成 xls, ods, json, xml 等功能,另外可以自動取出欄位列表帶入平台的欄位說明中
*這裡還是要表達會內想遏殺xls的立場XDrz
*btw, 如果都以CSV為基礎的話真的是很好處理,這樣轉換JSON, XML都不會是問題。但轉ods我沒找過工具就是
- *[Z] 將這個檔案上架,但是標記為平台無法解析,不做其他處理,並在各部會檢核時被列入不乾淨資料的統計中,並記錄是從哪個流程進到這步,供資料承辦參考改進
+ *[Z]
+ *還有一個問題,產製後是一樣要放在平臺? 還是即時轉換呢? 這會大幅影響到平臺規劃。 將這個檔案上架,但是標記為平台無法解析,不做其他處理,並在各部會檢核時被列入不乾淨資料的統計中,並記錄是從哪個流程進到這步,供資料承辦參考改進
*使用者仍可下載承辦上傳的原始檔案
2016-10-26 03:04 – 03:06 Ronny Wang r1484 – r1579
顯示 diff
(30 行未修改)
*內容檢查,如果是 table 格式的 XML ,將之轉成 csv ,並且把欄位取出進到 [Y]
*不認得的 XML 格式,就進到 [X]
+ *這邊或許可以檢查是否是特定格式的 XML ,就我所知預決算好像有標準 XML 格式,他不會是 table 格式,但是也可以額外標記出來,供預決算研究人員用
*[E] 遇到 CSV
*強制作一遍 utf-8 轉 big5 再轉回來,如果內容不變表示確定是 utf-8 CSV ,進到 [E1]
(22 行未修改)
*使用者可下載承辦上傳的原始資料
*也就是說這裡會區分為原始資料跟轉換後資料? 那轉換後的資料資源是就放在我們平台囉?
- *加這個
+ *加這個是避免平台處理過程誤判將原始資料的一些資訊流失掉,轉換後的資料就是存在平台上面了
*使用者可下載轉成 CSV 的乾淨資料
*平台提供自動轉成 xls, ods, json, xml 等功能,另外可以自動取出欄位列表帶入平台的欄位說明中
(5 行未修改)
2016-10-26 03:04 Leo Cheng r1483
顯示 diff
(55 行未修改)
*Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者是 Excel 需求的話,可以下載轉出來的 ods
*使用者可下載承辦上傳的原始資料
- *也就是說這裡會區分為原始資料跟轉換後資料? 那轉換後的資料資源是就放在我們平台囉
+ *也就是說這裡會區分為原始資料跟轉換後資料? 那轉換後的資料資源是就放在我們平台囉?
*加這個
*使用者可下載轉成 CSV 的乾淨資料
(6 行未修改)
2016-10-26 03:04 Ronny Wang r1482
顯示 diff
(56 行未修改)
*使用者可下載承辦上傳的原始資料
*也就是說這裡會區分為原始資料跟轉換後資料? 那轉換後的資料資源是就放在我們平台囉
- * ru8 2k5
+ *加這個
*使用者可下載轉成 CSV 的乾淨資料
*平台提供自動轉成 xls, ods, json, xml 等功能,另外可以自動取出欄位列表帶入平台的欄位說明中
(5 行未修改)
2016-10-26 03:04 Leo Cheng r1481
顯示 diff
(55 行未修改)
*Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者是 Excel 需求的話,可以下載轉出來的 ods
*使用者可下載承辦上傳的原始資料
- *也就是說這裡會區分為原始資料跟轉換後資料? 那轉換後的資料資源是就放在我們平
+ *也就是說這裡會區分為原始資料跟轉換後資料? 那轉換後的資料資源是就放在我們平台囉
* ru8 2k5
*使用者可下載轉成 CSV 的乾淨資料
(6 行未修改)
2016-10-26 03:04 Ronny Wang r1480
顯示 diff
(56 行未修改)
*使用者可下載承辦上傳的原始資料
*也就是說這裡會區分為原始資料跟轉換後資料? 那轉換後的資料資源是就放在我們平
- *
+ * ru8 2k5
*使用者可下載轉成 CSV 的乾淨資料
*平台提供自動轉成 xls, ods, json, xml 等功能,另外可以自動取出欄位列表帶入平台的欄位說明中
(5 行未修改)
2016-10-26 03:04 Leo Cheng r1479
顯示 diff
(55 行未修改)
*Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者是 Excel 需求的話,可以下載轉出來的 ods
*使用者可下載承辦上傳的原始資料
- *也就是說這裡會區分為原始資料跟轉換後資料?
+ *也就是說這裡會區分為原始資料跟轉換後資料? 那轉換後的資料資源是就放在我們平
*
*使用者可下載轉成 CSV 的乾淨資料
(6 行未修改)
2016-10-26 03:04 Ronny Wang r1478
顯示 diff
(56 行未修改)
*使用者可下載承辦上傳的原始資料
*也就是說這裡會區分為原始資料跟轉換後資料?
+ *
*使用者可下載轉成 CSV 的乾淨資料
*平台提供自動轉成 xls, ods, json, xml 等功能,另外可以自動取出欄位列表帶入平台的欄位說明中
(5 行未修改)
2016-10-26 03:03 – 03:04 Leo Cheng r1456 – r1477
顯示 diff
(7 行未修改)
*如果是 xml 檔,到 [D]
*如果是 csv 檔,到 [E]
- *如果是 xls, ods 檔,到 [F]
- *如果是 pdf, doc 檔,到 [Z]
- *如果是 kml, shp 檔
+ *如果是 xls, xlsx, ods 檔,到 [F]
+ *如果是 pdf, doc, docx 檔,到 [Z]
+ *如果是 kml, shp 檔 ,到...?
*[B] 遇到壓縮檔 (zip, rar, 7z...)
*解壓縮開來,如果裡面只有一個檔案,以這個檔案回到 [A]
(41 行未修改)
*Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者是 Excel 需求的話,可以下載轉出來的 ods
*使用者可下載承辦上傳的原始資料
+ *也就是說這裡會區分為原始資料跟轉換後資料?
*使用者可下載轉成 CSV 的乾淨資料
*平台提供自動轉成 xls, ods, json, xml 等功能,另外可以自動取出欄位列表帶入平台的欄位說明中
(5 行未修改)
2016-10-26 03:02 – 03:02 Ronny Wang r1451 – r1455
顯示 diff
(61 行未修改)
*[Z] 將這個檔案上架,但是標記為平台無法解析,不做其他處理,並在各部會檢核時被列入不乾淨資料的統計中,並記錄是從哪個流程進到這步,供資料承辦參考改進
- *使用者仍可下載承辦上傳的資料
+ *使用者仍可下載承辦上傳的原始檔案
2016-10-26 03:02 – 03:02 Leo Cheng r1431 – r1450
顯示 diff
(9 行未修改)
*如果是 xls, ods 檔,到 [F]
*如果是 pdf, doc 檔,到 [Z]
+ *如果是 kml, shp 檔
*[B] 遇到壓縮檔 (zip, rar, 7z...)
*解壓縮開來,如果裡面只有一個檔案,以這個檔案回到 [A]
(50 行未修改)
2016-10-26 03:01 – 03:02 Ronny Wang r1418 – r1430
顯示 diff
(23 行未修改)
*不認得的 JSON 格式,就進到 [X]
*[D] 遇到 XML
- *檢查如果是 xlsx ,進到 [F]
+ *檢查如果是 xlsx 或是 ods 的 XML 檔,進到 [F]
*進行 XML 文法檢查,如果檢查失敗直接進到 [Z]
*如果 syntax 檢查沒問題,進到 [D1]
(35 行未修改)
2016-10-26 02:59 – 03:01 Leo Cheng r1376 – r1417
顯示 diff
(17 行未修改)
*JSON跟XML是不是也會遇到編碼問題?
*不會有編碼問題,因為 JSON 和 XML 的標準就是 UTF-8 ,如果沒照標準改用其他編碼,就直接視為不合法JSON 或是 XML
- *恩恩,這部分有多少不合格可能要先評估砍ˋ
+ *恩恩,這部分有多少不合格可能要先評估看看
*如果 syntax 檢查沒問題,進到 [C1]
*[C1] 乾淨 JSON
(34 行未修改)
*使用者可下載轉成 CSV 的乾淨資料
*平台提供自動轉成 xls, ods, json, xml 等功能,另外可以自動取出欄位列表帶入平台的欄位說明中
+ *這裡還是要表達會內想遏殺xls的立場XDrz
+ *btw, 如果都以CSV為基礎的話真的是很好處理,這樣轉換JSON, XML都不會是問題。但轉ods我沒找過工具就是
*[Z] 將這個檔案上架,但是標記為平台無法解析,不做其他處理,並在各部會檢核時被列入不乾淨資料的統計中,並記錄是從哪個流程進到這步,供資料承辦參考改進
(1 行未修改)
2016-10-26 02:59 Ronny Wang r1375
顯示 diff
(52 行未修改)
*[Y] 將這個檔案上架,標記為乾淨表格,並把資料轉成 CSV 存在資料庫中
*也就是說,這裡的CSV都只會是UTF-8囉?
- *Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者是 Excel 需求的話,可以ㄒㄧㄚ轉出來的 ods
+ *Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者是 Excel 需求的話,可以下載轉出來的 ods
*使用者可下載承辦上傳的原始資料
*使用者可下載轉成 CSV 的乾淨資料
(4 行未修改)
2016-10-26 02:59 Leo Cheng r1374
顯示 diff
(17 行未修改)
*JSON跟XML是不是也會遇到編碼問題?
*不會有編碼問題,因為 JSON 和 XML 的標準就是 UTF-8 ,如果沒照標準改用其他編碼,就直接視為不合法JSON 或是 XML
- *恩恩,這部分有多少不合格可能要先評估
+ *恩恩,這部分有多少不合格可能要先評估砍ˋ
*如果 syntax 檢查沒問題,進到 [C1]
*[C1] 乾淨 JSON
(39 行未修改)
2016-10-26 02:59 Ronny Wang r1373
顯示 diff
(52 行未修改)
*[Y] 將這個檔案上架,標記為乾淨表格,並把資料轉成 CSV 存在資料庫中
*也就是說,這裡的CSV都只會是UTF-8囉?
- *Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者是 Excel 需求的話,可以轉出來的 ods
+ *Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者是 Excel 需求的話,可以ㄒㄧㄚ轉出來的 ods
*使用者可下載承辦上傳的原始資料
*使用者可下載轉成 CSV 的乾淨資料
(4 行未修改)
2016-10-26 02:59 Leo Cheng r1372
顯示 diff
(17 行未修改)
*JSON跟XML是不是也會遇到編碼問題?
*不會有編碼問題,因為 JSON 和 XML 的標準就是 UTF-8 ,如果沒照標準改用其他編碼,就直接視為不合法JSON 或是 XML
- *恩恩,這部分有多少不合格可能要先評
+ *恩恩,這部分有多少不合格可能要先評估
*如果 syntax 檢查沒問題,進到 [C1]
*[C1] 乾淨 JSON
(39 行未修改)
2016-10-26 02:59 Ronny Wang r1371
顯示 diff
(52 行未修改)
*[Y] 將這個檔案上架,標記為乾淨表格,並把資料轉成 CSV 存在資料庫中
*也就是說,這裡的CSV都只會是UTF-8囉?
- *Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者是 Excel 需求的話,可以用轉出來的 ods
+ *Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者是 Excel 需求的話,可以轉出來的 ods
*使用者可下載承辦上傳的原始資料
*使用者可下載轉成 CSV 的乾淨資料
(4 行未修改)
2016-10-26 02:59 – 02:59 Leo Cheng r1364 – r1370
顯示 diff
(17 行未修改)
*JSON跟XML是不是也會遇到編碼問題?
*不會有編碼問題,因為 JSON 和 XML 的標準就是 UTF-8 ,如果沒照標準改用其他編碼,就直接視為不合法JSON 或是 XML
- *恩恩,這部分有多少不合格
+ *恩恩,這部分有多少不合格可能要先評
*如果 syntax 檢查沒問題,進到 [C1]
*[C1] 乾淨 JSON
(39 行未修改)
2016-10-26 02:59 Ronny Wang r1363
顯示 diff
(52 行未修改)
*[Y] 將這個檔案上架,標記為乾淨表格,並把資料轉成 CSV 存在資料庫中
*也就是說,這裡的CSV都只會是UTF-8囉?
- *Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者是 Excel 需求的話,可以用轉出來的
+ *Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者是 Excel 需求的話,可以用轉出來的 ods
*使用者可下載承辦上傳的原始資料
*使用者可下載轉成 CSV 的乾淨資料
(4 行未修改)
2016-10-26 02:59 – 02:59 Leo Cheng r1360 – r1362
顯示 diff
(17 行未修改)
*JSON跟XML是不是也會遇到編碼問題?
*不會有編碼問題,因為 JSON 和 XML 的標準就是 UTF-8 ,如果沒照標準改用其他編碼,就直接視為不合法JSON 或是 XML
- *恩恩,這部分有多
+ *恩恩,這部分有多少不合格
*如果 syntax 檢查沒問題,進到 [C1]
*[C1] 乾淨 JSON
(39 行未修改)
2016-10-26 02:59 Ronny Wang r1359
顯示 diff
(52 行未修改)
*[Y] 將這個檔案上架,標記為乾淨表格,並把資料轉成 CSV 存在資料庫中
*也就是說,這裡的CSV都只會是UTF-8囉?
- *Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者是 Excel 需求的話,可以用轉出來
+ *Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者是 Excel 需求的話,可以用轉出來的
*使用者可下載承辦上傳的原始資料
*使用者可下載轉成 CSV 的乾淨資料
(4 行未修改)
2016-10-26 02:59 Leo Cheng r1358
顯示 diff
(17 行未修改)
*JSON跟XML是不是也會遇到編碼問題?
*不會有編碼問題,因為 JSON 和 XML 的標準就是 UTF-8 ,如果沒照標準改用其他編碼,就直接視為不合法JSON 或是 XML
- *恩恩,這部分有
+ *恩恩,這部分有多
*如果 syntax 檢查沒問題,進到 [C1]
*[C1] 乾淨 JSON
(39 行未修改)
2016-10-26 02:59 Ronny Wang r1357
顯示 diff
(52 行未修改)
*[Y] 將這個檔案上架,標記為乾淨表格,並把資料轉成 CSV 存在資料庫中
*也就是說,這裡的CSV都只會是UTF-8囉?
- *Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者是 Excel 需求的話,可以用轉
+ *Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者是 Excel 需求的話,可以用轉出來
*使用者可下載承辦上傳的原始資料
*使用者可下載轉成 CSV 的乾淨資料
(4 行未修改)
2016-10-26 02:59 Leo Cheng r1356
顯示 diff
(17 行未修改)
*JSON跟XML是不是也會遇到編碼問題?
*不會有編碼問題,因為 JSON 和 XML 的標準就是 UTF-8 ,如果沒照標準改用其他編碼,就直接視為不合法JSON 或是 XML
- *恩恩,這部分
+ *恩恩,這部分有
*如果 syntax 檢查沒問題,進到 [C1]
*[C1] 乾淨 JSON
(39 行未修改)
2016-10-26 02:59 Ronny Wang r1355
顯示 diff
(52 行未修改)
*[Y] 將這個檔案上架,標記為乾淨表格,並把資料轉成 CSV 存在資料庫中
*也就是說,這裡的CSV都只會是UTF-8囉?
- *Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者是 Excel 需求的話,可以用
+ *Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者是 Excel 需求的話,可以用轉
*使用者可下載承辦上傳的原始資料
*使用者可下載轉成 CSV 的乾淨資料
(4 行未修改)
2016-10-26 02:59 – 02:59 Leo Cheng r1353 – r1354
顯示 diff
(17 行未修改)
*JSON跟XML是不是也會遇到編碼問題?
*不會有編碼問題,因為 JSON 和 XML 的標準就是 UTF-8 ,如果沒照標準改用其他編碼,就直接視為不合法JSON 或是 XML
- *恩恩,這
+ *恩恩,這部分
*如果 syntax 檢查沒問題,進到 [C1]
*[C1] 乾淨 JSON
(39 行未修改)
2016-10-26 02:59 Ronny Wang r1352
顯示 diff
(52 行未修改)
*[Y] 將這個檔案上架,標記為乾淨表格,並把資料轉成 CSV 存在資料庫中
*也就是說,這裡的CSV都只會是UTF-8囉?
- *Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者是 Excel 需求的話,可以
+ *Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者是 Excel 需求的話,可以用
*使用者可下載承辦上傳的原始資料
*使用者可下載轉成 CSV 的乾淨資料
(4 行未修改)
2016-10-26 02:59 Leo Cheng r1351
顯示 diff
(17 行未修改)
*JSON跟XML是不是也會遇到編碼問題?
*不會有編碼問題,因為 JSON 和 XML 的標準就是 UTF-8 ,如果沒照標準改用其他編碼,就直接視為不合法JSON 或是 XML
- *恩恩,
+ *恩恩,這
*如果 syntax 檢查沒問題,進到 [C1]
*[C1] 乾淨 JSON
(39 行未修改)
2016-10-26 02:59 Ronny Wang r1350
顯示 diff
(52 行未修改)
*[Y] 將這個檔案上架,標記為乾淨表格,並把資料轉成 CSV 存在資料庫中
*也就是說,這裡的CSV都只會是UTF-8囉?
- *Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者是 Excel 需求的話
+ *Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者是 Excel 需求的話,可以
*使用者可下載承辦上傳的原始資料
*使用者可下載轉成 CSV 的乾淨資料
(4 行未修改)
2016-10-26 02:59 Leo Cheng r1349
顯示 diff
(17 行未修改)
*JSON跟XML是不是也會遇到編碼問題?
*不會有編碼問題,因為 JSON 和 XML 的標準就是 UTF-8 ,如果沒照標準改用其他編碼,就直接視為不合法JSON 或是 XML
- *恩恩
+ *恩恩,
*如果 syntax 檢查沒問題,進到 [C1]
*[C1] 乾淨 JSON
(39 行未修改)
2016-10-26 02:59 Ronny Wang r1348
顯示 diff
(52 行未修改)
*[Y] 將這個檔案上架,標記為乾淨表格,並把資料轉成 CSV 存在資料庫中
*也就是說,這裡的CSV都只會是UTF-8囉?
- *Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者是 Excel
+ *Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者是 Excel 需求的話
*使用者可下載承辦上傳的原始資料
*使用者可下載轉成 CSV 的乾淨資料
(4 行未修改)
2016-10-26 02:59 Leo Cheng r1347
顯示 diff
(17 行未修改)
*JSON跟XML是不是也會遇到編碼問題?
*不會有編碼問題,因為 JSON 和 XML 的標準就是 UTF-8 ,如果沒照標準改用其他編碼,就直接視為不合法JSON 或是 XML
- *
+ *恩恩
*如果 syntax 檢查沒問題,進到 [C1]
*[C1] 乾淨 JSON
(39 行未修改)
2016-10-26 02:59 – 02:59 Ronny Wang r1344 – r1346
顯示 diff
(52 行未修改)
*[Y] 將這個檔案上架,標記為乾淨表格,並把資料轉成 CSV 存在資料庫中
*也就是說,這裡的CSV都只會是UTF-8囉?
- *Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者
+ *Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者是 Excel
*使用者可下載承辦上傳的原始資料
*使用者可下載轉成 CSV 的乾淨資料
(4 行未修改)
2016-10-26 02:59 Leo Cheng r1343
顯示 diff
(17 行未修改)
*JSON跟XML是不是也會遇到編碼問題?
*不會有編碼問題,因為 JSON 和 XML 的標準就是 UTF-8 ,如果沒照標準改用其他編碼,就直接視為不合法JSON 或是 XML
+ *
*如果 syntax 檢查沒問題,進到 [C1]
*[C1] 乾淨 JSON
(39 行未修改)
2016-10-26 02:59 – 02:59 Ronny Wang r1324 – r1342
顯示 diff
(51 行未修改)
*[Y] 將這個檔案上架,標記為乾淨表格,並把資料轉成 CSV 存在資料庫中
*也就是說,這裡的CSV都只會是UTF-8囉?
+ *Yes ,因為在 [E1] 時已經都轉成 UTF-8 了,如果使用者
*使用者可下載承辦上傳的原始資料
*使用者可下載轉成 CSV 的乾淨資料
(4 行未修改)
2016-10-26 02:58 – 02:59 Leo Cheng r1311 – r1323
顯示 diff
(50 行未修改)
*使用者仍可下載承辦上傳的資料
*[Y] 將這個檔案上架,標記為乾淨表格,並把資料轉成 CSV 存在資料庫中
+ *也就是說,這裡的CSV都只會是UTF-8囉?
*使用者可下載承辦上傳的原始資料
*使用者可下載轉成 CSV 的乾淨資料
(4 行未修改)
2016-10-26 02:55 – 02:56 Ronny Wang r1269 – r1310
顯示 diff
(16 行未修改)
*進行 JSON syntax 檢查,如果檢查失敗直接進到 [Z]
*JSON跟XML是不是也會遇到編碼問題?
- *不
+ *不會有編碼問題,因為 JSON 和 XML 的標準就是 UTF-8 ,如果沒照標準改用其他編碼,就直接視為不合法JSON 或是 XML
*如果 syntax 檢查沒問題,進到 [C1]
*[C1] 乾淨 JSON
(37 行未修改)
2016-10-26 02:55 Leo Cheng r1268
顯示 diff
(15 行未修改)
*[C] 遇到 JSON
*進行 JSON syntax 檢查,如果檢查失敗直接進到 [Z]
- *JSON跟XML是不是也會不會遇到編碼問題?
+ *JSON跟XML是不是也會遇到編碼問題?
*不
*如果 syntax 檢查沒問題,進到 [C1]
(38 行未修改)
2016-10-26 02:55 Ronny Wang r1267
顯示 diff
(16 行未修改)
*進行 JSON syntax 檢查,如果檢查失敗直接進到 [Z]
*JSON跟XML是不是也會不會遇到編碼問題?
- *
+ *不
*如果 syntax 檢查沒問題,進到 [C1]
*[C1] 乾淨 JSON
(37 行未修改)
2016-10-26 02:55 Leo Cheng r1266
顯示 diff
(15 行未修改)
*[C] 遇到 JSON
*進行 JSON syntax 檢查,如果檢查失敗直接進到 [Z]
- *JSON跟XML會不會遇到編碼問題?
+ *JSON跟XML是不是也會不會遇到編碼問題?
*
*如果 syntax 檢查沒問題,進到 [C1]
(38 行未修改)
2016-10-26 02:55 Ronny Wang r1265
顯示 diff
(16 行未修改)
*進行 JSON syntax 檢查,如果檢查失敗直接進到 [Z]
*JSON跟XML會不會遇到編碼問題?
+ *
*如果 syntax 檢查沒問題,進到 [C1]
*[C1] 乾淨 JSON
(37 行未修改)
2016-10-26 02:55 – 02:55 Leo Cheng r1246 – r1264
顯示 diff
(15 行未修改)
*[C] 遇到 JSON
*進行 JSON syntax 檢查,如果檢查失敗直接進到 [Z]
+ *JSON跟XML會不會遇到編碼問題?
*如果 syntax 檢查沒問題,進到 [C1]
*[C1] 乾淨 JSON
(37 行未修改)
2016-10-26 02:23 – 02:55 Ronny Wang r1 – r1245
顯示 diff
- Untitled
+ Open Data 上架檢核流程
- This pad text is synchronized as you type, so that everyone viewing this page sees the same text. This allows you to collaborate seamlessly on documents!
+ 以下內容是供國發會 data.gov.tw 參考由各部會資料承辦人上架資料時,能夠怎麼樣檢核資料是否乾淨
+
+ *[A] 承辦人上傳資料
+ *如果是 zip rar 7z 檔,到 [B]
+ *如果是 json 檔,到 [C]
+ *如果是 xml 檔,到 [D]
+ *如果是 csv 檔,到 [E]
+ *如果是 xls, ods 檔,到 [F]
+ *如果是 pdf, doc 檔,到 [Z]
+ *[B] 遇到壓縮檔 (zip, rar, 7z...)
+ *解壓縮開來,如果裡面只有一個檔案,以這個檔案回到 [A]
+ *如果解壓縮有多個檔案,進到 [Z]
+ *PS: 這邊可以列入一些檔名忽略清單,例如 README.txt schema.csv ... 之類的,去掉這些檔案後還有多個檔案才需要進入 [Z]
+ *[C] 遇到 JSON
+ *進行 JSON syntax 檢查,如果檢查失敗直接進到 [Z]
+ *如果 syntax 檢查沒問題,進到 [C1]
+ *[C1] 乾淨 JSON
+ *內容檢查,如果是 table 格式的 JSON ,將之轉成 csv ,並且把欄位取出進到 [Y]
+ *不認得的 JSON 格式,就進到 [X]
+ *[D] 遇到 XML
+ *檢查如果是 xlsx ,進到 [F]
+ *進行 XML 文法檢查,如果檢查失敗直接進到 [Z]
+ *如果 syntax 檢查沒問題,進到 [D1]
+ *[D1] 乾淨 XML
+ *內容檢查,如果是 table 格式的 XML ,將之轉成 csv ,並且把欄位取出進到 [Y]
+ *不認得的 XML 格式,就進到 [X]
+ *[E] 遇到 CSV
+ *強制作一遍 utf-8 轉 big5 再轉回來,如果內容不變表示確定是 utf-8 CSV ,進到 [E1]
+ *如果確定是 big5 csv ,把他轉成 utf-8 csv ,再進到 [E1]
+ *[E1] 處理 UTF-8 CSV
+ *把第一行欄位抓出來檢查,如果有欄位是純數字內容(Ex: 「台北市,123,456」或是有重覆 「縣市,金額,鄉鎮,金額」 就視為有錯誤,到 [Z]
+ *第二行之後每一行檢查,如果有哪一行欄數大於第一行,就視為有錯誤,到 [Z]
+ *從第二行開始對每一列各自檢查,如果有哪一列有 95% 都是純數字,但是少數幾行卻有非純數字情況,有可能是把「總計」這種資訊也列入了,可能是不乾淨的 CSV ,到 [Z]
+ *PS: 這一步驟其實有可能誤判,最好再加上人工檢查
+ *沒發現錯誤,到 [Y]
+ *[F] 遇到 xls, ods
+ *檢查是否有用到合併儲存格、繪製框線或是儲存格背景色,或使用公式,有以上情況,就進到 [Z]
+ *如果有使用多分頁的話,就進到 [Z]
+ *如果沒有以上情況,表示是個轉成 csv 也不會流失資訊的 xls 或 ods,就把他轉成 csv 之後進到 [E]
+
+
+
+
+
+ 完結動作
+ *[X] 將這個檔案上架,不視為不乾淨資料,但是標記為非 sheet 格式資料,不做額外處理
+ *使用者仍可下載承辦上傳的資料
+ *[Y] 將這個檔案上架,標記為乾淨表格,並把資料轉成 CSV 存在資料庫中
+ *使用者可下載承辦上傳的原始資料
+ *使用者可下載轉成 CSV 的乾淨資料
+ *平台提供自動轉成 xls, ods, json, xml 等功能,另外可以自動取出欄位列表帶入平台的欄位說明中
+
+ *[Z] 將這個檔案上架,但是標記為平台無法解析,不做其他處理,並在各部會檢核時被列入不乾淨資料的統計中,並記錄是從哪個流程進到這步,供資料承辦參考改進
+ *使用者仍可下載承辦上傳的資料
2016-10-26 02:23 (unknown) r0
顯示 diff
+ Untitled
+ This pad text is synchronized as you type, so that everyone viewing this page sees the same text. This allows you to collaborate seamlessly on documents!