公有土地資料擷取討論
一般注意事項
- 資料的基本規格,以下各種項目之間無法相互推敲,是描述土地特性根本的資料項目
- 在哪裡:不動產標示,包含 縣市,行政區,段小段,地號
- 有多大:面積 與 持份比例
- 誰的地:所有權人、經管單位(管理者)
- 怎麼了:公用or非公用狀態、開發方式
- 圖面與文書:現況圖片、計劃圖、報告書、判決書...等等
- 相關租售價資料:公告現值...
- 建立資料的時間:因為土地資料會隨時間變動,所以必須知道資料時間
舉例
所有權人:中華民國
管理者:財政部國有財產署
縣市:台北市
行政區:中正區
段小段:永昌段一小段
地號:00300000
面積(平方公尺):9
分母:1
分子:1
持分面積(平方公尺):9
使用分區:第三種住宅區
地目:
編定使用種類:
狀態:標售
公告現值日期:
公告現值單價(元/平方公尺):
公告現值總價(元):
資料時間:2015
圖片:.....
- 前述基本規格的資料,衍生可查到的資料
- 縣市+行政區+段小段+地號→
- 土地形狀(參考地號轉地圖)
- 計畫分區(例如是否位在商業區內)
- 該筆土地歷年轉手資料,基本上從有紀錄的時代開始都可以查的到,但需繳交費用給中華電信?
- 待確認:建築物登記、建照、使用執照
- 民眾的回應資料(例如以前這是做什麼用途的)
- 段小段地號、開發方式→開發進度與相關資料庫、政策決議、新聞
- 面積→單位換算(坪..)
資料清理
由於目前主流文字編碼都採用UTF-8,但是台灣政府系統依舊使用BIG5編碼,在文字編碼轉換上有時候會出現問題,例如下方心得列舉中的「も魚堀段」問題。
從資料面來看,目前最正確完整的應該是內政部地政司,政府資料開放平台提供的土地段名代碼原始來源也是這裡,但是該檔案除了編碼有問題,也幾乎沒在更新,所以這邊先做了一個爬蟲,先把內政部地政司提供的資料抓下來,並將編碼從「Big5-HKSCS」轉成「UTF-8」,可以正確對應到已經上線的地號轉地圖工具。
之後抓取的資料都會先跟這裡的名稱進行初步比對,至少段、小段名稱要正確才會儲存,如果比對錯誤可能就是程式Bug或者應該找管道回報。
程式位置:https://github.com/Shihta/FNP_Crawler
已經轉檔好的土地段名放在:OtherDatas/landnames.json
心得列舉
- 「段小段&地號」最重要!
- 可以用議題經驗,去蒐集需要關注的公有土地資料。例如,在公有土地的茫茫大海中,以「位在可建築區位,但目前沒有建築物登記的土地」,其實也是一種找到需要關注土地對象的方法,因為這種土地非常有機會被開發與被處分。
- 所挖出的資料,可以上傳到,零時資料中心。
- 土地段名代碼:
http://data.gov.tw/node/7504 - 這份資料有亂碼,可參考前段「資料清理」
- 公有地專案,即將以 PostgreSQL 為 DB。
財政部國有財產署北區分署資料如下:

看起來缺少「地號」與使用狀態,其中土地明細如下:

這資料不知道該如何處理呢?

另外想請教以這張圖為例,所謂的「段小段」是不是「德音段0574」呢?
此外關於政府的「土地段名代碼」是不是也要合併使用呢?http://data.gov.tw/node/7504
好像沒找到已有的資料表關聯?

有些資料好像查不到...

我查詢「新北市,坪林區,大粗坑段虎寮潭小段,57」沒有顯示資料,另外還有些日文字,不知道是亂碼還是?
國有財產署的有一個業務是紀錄國有土地上的狀況,所以除了一般的土地地號相關欄位之外,以這塊 200 坪的臺北市中正區福和段二小段0244 地號的「土地明細」來看,國產署自己有紀錄他們認定目前地上的狀況(ex保留、占用),不過每一筆錄號的範圍形狀、位置、狀況判定,可能只有國產署自己有紀錄方法吧我猜。至於是什麼樣的,現場現勘、紀錄、面積計算的流程,我就不太清楚了。以下是國產署針對此地號的「土地明細」表格。第二張圖片則是此地號範圍的衛星圖,可以看到有許多建築物。

