開放民間租屋資料
本文以 CC0 拋棄一切著作權
想解決的問題
台灣租屋市場長期國防布,不只市場效能不彰、資訊不對等產生套利空間,就算政府或民間想要介入改變,也無法準確描述問題與定義有效的衡量指標,因果循環下,只能使用有限的資料進行實驗。儘管要讓租屋市場能夠被「看見」,需要透過外部制度改革與內部供需雙方意識的改變,無法透過單一方法就解決所有問題,但至少目前能作的,是整理已公開,但尚未結構化的租屋資料,長期追蹤,協助後續的問題分析。
目前可公開的租屋資訊,散落在各民間租屋網站,但各網站的資料格式不統一,成交後租屋資料就會消失,而且還有各種詐騙內容(隱匿頂加、詐騙照片),因此需要有一個能夠收集並清理資料的地方,存放民間的租屋資料。
使用情境
希望透過爬蟲,長期收集各租屋網站、品牌公寓的可公開資訊,清洗後整理成格式統一的資料,供後續有需要的人使用。
身為需要租屋資料來作研究的 NGO ...
- 可以根據需求過濾出想要的物件
- 時間、房型、價位,諸如此類
- 可以來這個網站下載資料,下載的資料可以拿去跑其他程式或統計軟體
- 每個物件要有可辨識編號,方便長期追蹤
- 資料最好是已經編碼過的資料,方便跑統計
身為需要租屋資料來作其他服務的宅宅...
TBD
身為想要來看某屋成交行情、房客更換頻率的租屋客...
TBD
身為想要調查租金行情的房東...
從目前的資料裡,看不出房客滿意度呦 XD
目前成果
- 原始碼:https://github.com/g0v/tw-rental-house-data
- 資料說明與下載網站:https://rentalhouse.g0v.ddio.io
- 聊天室: g0v-slack#tw-rental-house-data https://g0v-tw.slack.com/messages/CBXKTAXHD/
- Mockup: https://app.moqups.com/ddio/eIKAZKBzp4/view/page/aa9df7b72
- 即時資料視覺化與快速分析:因為 Metabase 較吃資源,未開放匿名使用,有興趣的人,請聯絡 ddio 開帳號~
功能規劃
爬資料
透過爬蟲,定期收錄台灣各租屋網站、品牌公寓的租屋資料
- 目標網站
- `DONE` 591
- 崔媽媽
- 好房網
- ??
- 需要的資料內容
- `DONE` 案號
- `DONE` 縣市、鄉鎮市區
- `版權資料,不散佈` 照片
- `DONE` 頂加、地下室、隔間(如果查得出來)
- `DONE` 刊登時間、更新時間、關閉時間
- `DONE` 租金
- `DONE` 坪數
- `DONE` 身份限制(學生、上班族)
- `DONE` 性別
- `DONE` 提供的設備
- `版權資料,不散佈` 特色說明
- `DONE` 刊登者代碼(可用 md5 去識別化)
- `DONE` 大概的地點 / gps + 半徑?
- 同一物件的歷史資料 / 變化
- 連結外部資料
- 土地與建物資料,例如坪數、樓層、屋齡
- 資料處理方式
- `DONE` 抓下來後保留原始檔,方便加入演算法時,可以重跑
- `DONE` 清理資料,將可編碼的資料整理乾淨
- 判斷同一物件的狀況變化
- 清理資料,判斷房屋資料準確度
- 頂加
- 詐騙房屋
- 盜圖
- 合併跨平台、平台內的相同物件
- 同一物件,多平台投遞
- 同一物件,多仲介投遞
- 同一物件,多個網頁(隱藏過去開價)
- 尋找同戶內的物件
- 2018.06 隔間六間或十床以上,列為公共使用建築,須列管與符合相關安全法規
- `DONE` 儲存結果
界面
阿宅 mockup: https://app.moqups.com/ddio/eIKAZKBzp4/view
- 原型機零號
- `DONE` 資料下載 +資料集說明
- 原型機初號
- 更詳細的資料下載頁面,包含
- 每個 csv 最後更新時間、使用的欄位版本 + 資料集成熟度(x.x beta / x.x)
- 說明資料集版本的意含
- 提供原始資料外的延伸資料集,例如
- 重複物件列表
- 疑似頂加列表
- 應該是住宅 flag
- 原型機二號
- 物件時光機,顯示單一物件的詳細資料
- 解決 CSV 不方便預覽,而且沒有照片、說明和標題的問題
- 包含因著作權而無法散佈的資料,限制只有人類可以讀取,加註警語
- 有趣的統計結果視覺化
- 原型機三號
- 傳統資料庫模式,選定過濾條件,顯示結果表格,並提供下載,滿足研究者基本需求(因為本坑的源頭是薪資與租屋居住品質關聯調查 <3)
- 原型機四號:
- 提供較友善的互動界面,協助研究者找出有趣/想要的資料
開放資料
- 在 Google Drive 上定期上傳每月、每季、每年的資料
- API ?
實做順序
Release 0.1
- 爬資料:
- 591,每日 1 次
- 基本編碼清理
- 增加`爬資料 2.l` 張貼者編碼
Release 0.2
- 爬資料:
- 爬蟲 keep alive
- 增加`爬資料2.m` 粗略 GPS
- 增加 `爬資料 3.e` 重複物件偵測
Release 1.0
TBD
歷次黑客松與支線任務
第參拾次佛系黑客松 - 不住頂加有多難
投影片、與頂樓資料表格
- 30 次佛系黑客松成果:
- from Lucien -法律問題都解決,爬蟲原始碼和資料都可以公開了~
- from ronny - 可以用使用執照 / 建照查詢房屋樓層(如果地址有公佈的話)
- from poga -可以用 Metabase 作大表格的查詢、視覺化,不需要寫程式或 sql
- 挑了 6F/6F的房子,完成了 30/487
- 下一步:開放資料 + API + 讓頂加標注更方便
- 可能的頂加辨認方向:
- 拿已經標註頂加的資料當訓練資料?
- 數字裡的資訊:
- 文字裡的資訊:
- 圖片裡的資訊:
簡單的異常值條件
- 物件與建物類型:
- 建物類型建議只挑公寓、透天、電梯大樓,因為華廈的數量過少,每個縣市大概都 < 1%
- 物件類型建議只挑整層住家、獨立套房、分租套房、雅房較為保險,雖然「其他」裡也有些是住宅,但也可能是其他不是給人類住的(?!)的東西
- 樓層
- 看起來 < 90 樓是個合理指標,只剩一間高雄 85 大樓的物件沒有過濾掉,剩下都是 < 45 層的
- 坪數
- < 500 坪是個合理指標,超過 500 的都是 10000 坪以上的物件
- 租金 + 每坪租金
- 每坪租金超過 10k 的共有 13 筆,其中大部份是數字填錯,或是刻意打錯,但也有一間是短租型旅館。以月租旅館單日 500 元來說,月租最高不應該超過 15k,以此當作每坪租金的界線,還算合適,雖然有機會抓到一些錯誤的資料
- 每坪租金 6k - 10k 的共 21 筆,大多是可短租的宿舍或旅館,但也有一些不是給人住的東西混入,像廣告看板 、店面
- 樓層 > 建物高,而且不是整棟出租
- 不過樓層寫 99 的,目前還是整棟 ,所以還是要算在裡面 XD
重複物件
- 降價調降,砍掉重練,照片完全一致 XD
- 降價前:https://rent.591.com.tw/rent-detail-6211452.html
- 降價後:https://rent.591.com.tw/rent-detail-6316624.html
- 工人洗版,同帳號同物件多次刊登 XD
- 忠誠路靜巷2+1房,近天母運動公園 https://rent.591.com.tw/rent-detail-6518714.html
- 天母運動公園對面靜巷三房,近高島屋 https://rent.591.com.tw/rent-detail-6518754.html
人力需求
- 法務,到底什麼資料可以公開阿 XD
- 物業管理達人 - 怎樣解釋資料才是對的?
- 後端 - 爬蟲 (scrapy)
- 後端 - RESTful API (django)
- UX + UI 設計師,救救工程師作的 mockup
- 前端 - UI (nuxt)
- 統計、資料科學家、ML專家 - 重複物件、住宅物件偵測
相關專案
- 此坑的源頭:薪資與租屋居住品質關聯調查 https://g0v.hackpad.tw/hZwt2iPr78w
- 租屋相關資料:https://g0v.haㄧㄝckpad.tw/x1M9qr6Syqw
- 標籤「居住」: https://g0v.hackpad.tw/ep/group/E4rnjHPORJO