開放民間租屋資料

編輯歷史

時間 作者 版本
2022-06-07 02:37 – 02:37 CY Lu r2349 – r2354
顯示 diff
(180 行未修改)
2018-12-03 15:30 – 15:30 劉家伶 r2347 – r2348
顯示 diff
(177 行未修改)
端 - UI (nuxt)此坑的
*統計、資料科學家、ML專家 - 重複物件、住宅物件偵測源頭:薪資與租屋居住品質關聯調查 https://g0v.hackpad.tw/hZwt2iPr78w
- *租屋相關資料:https://g0v.hackpad.tw/x1Mㄧㄝ9qr6Syqw
- *標籤「居住」: https://g0v.hackpad.tw/ep/group/E4rnjHPORJO
+ *租屋相關資料:https://g0v.https://g0v.haㄧㄝckpad.tw/x1M9qr6Syqwtps://g0v.hackpad.tw/ep/group/E4rnjHPORJO
2018-10-06 06:24 – 06:24 劉家伶 r2344 – r2346
顯示 diff
(181 行未修改)
2018-10-01 14:43 – 14:43 劉家伶 r2340 – r2343
顯示 diff
(181 行未修改)
2018-09-19 15:39 ddio Juan r2339
顯示 diff
(177 行未修改)
端 - UI (nuxt)此坑的
*統計、資料科學家、ML專家 - 重複物件、住宅物件偵測源頭:薪資與租屋居住品質關聯調查 https://g0v.hackpad.tw/hZwt2iPr78w
- *租屋相關資料:https://g0v.hackpad.tw/x1M9qr6Syqw
+ *租屋相關資料:https://g0v.hackpad.tw/x1Mㄧㄝ9qr6Syqw
*標籤「居住」: https://g0v.hackpad.tw/ep/group/E4rnjHPORJO
2018-08-31 14:44 – 14:52 Wei-Chieh Lin r2305 – r2338
顯示 diff
(113 行未修改)
增加爬 `資料 3.ce` 重複物件偵測*有產業專家回報,可能會有屋主將同一物件交給多名仲介交易的情況,所以網站上應該會抓到很多重複,而且發文者不同的相同物件 orz..
*而且實務上也常有假資料,像是給錯誤的地址、盜圖使用等等,因為有些案件一公開就會一堆仲介想辦法找到屋主資訊去爭取委託,導致仲介之間基於競爭關係會給很模糊的資料,在有實際買家接觸時才會帶到真正地點看屋,網路只是用來宣傳
- *找同網站的第二資料來源來驗證爬蟲正確度
+ *
+ *一般房仲會有這種情形,但是租賃的會比較少,因為傭金不多,仲介通常不太願意話時間在租賃的案件上,所以花時間模糊標的的可能性可能比較低一些。找同網站的第二資料來源來驗證爬蟲正確度
*搜尋界面:原型機二一初*
*更詳細的資料下載頁面
(49 行未修改)
*
*後
- *物業管理達人 - 怎樣解釋資料才是對的?端 - 爬蟲 (scrapy)
+ *物業管理達人 - 怎樣解釋資料才是對的?
+ *目前有碰到哪種一類型不動產或租賃的問題呢?可以看看有沒有解答的可能?端 - 爬蟲 (scrapy)
*後端 - RESTful API
*U (django)X*+ UI 設計師,救救工程師作的 mockup
*前
*有興趣跳坑~ 但需要一點時間多了解一下這個專案,也希望可以有更明確的UI/UX需求
- *目前有的想法如上,稍微清楚的部份「使用情境」,剩下的就需要自己發揮啦~目前是碰到使用者(以需要資料的媒體與 NGO 為主),會聊聊使用上的經驗,網頁沒有裝任何的追蹤程式端 - UI (nuxt)此坑的
+ *目前有的想法如上,稍微清楚的部份「使用情境」,剩下的就需要自己發揮啦~目前是碰到使用者(以需要資料的媒體與 NGO 為主),會聊聊使用上的經驗,網頁沒有裝任何的追蹤程式
+ 端 - UI (nuxt)此坑的
*統計、資料科學家、ML專家 - 重複物件、住宅物件偵測源頭:薪資與租屋居住品質關聯調查 https://g0v.hackpad.tw/hZwt2iPr78w
*租屋相關資料:https://g0v.hackpad.tw/x1M9qr6Syqw
(1 行未修改)
2018-08-31 08:28 – 08:40 jingmin tseng r2303 – r2304
顯示 diff
(178 行未修改)
2018-08-28 08:46 – 08:46 ddio Juan r2297 – r2302
顯示 diff
(56 行未修改)
*`版權資料,不散佈` 特色說明
*`DONE` 刊登者代碼(可用 md5 去識別化)
- *大概的地點 / gps + 半徑?
+ *`DONE` 大概的地點 / gps + 半徑?
*同一物件的歷史資料 / 變化
*連結外部資料
(47 行未修改)
*增加`爬資料 2.l` 張貼者編碼界面:原型機初號
零號* 資料下載 +資料集說明
- BDRelease 0.1.2爬資料:
+ BDRelease 0.2爬資料:
***爬蟲 keep alive
增加`爬資料 .m` 粗略 GPS
(65 行未修改)
2018-08-21 08:06 – 08:06 ddio Juan r2294 – r2296
顯示 diff
(108 行未修改)
*增加`爬資料 2.l` 張貼者編碼界面:原型機初號
零號* 資料下載 +資料集說明
- BDRelease 0.2爬資料:
+ BDRelease 0.1.2爬資料:
***爬蟲 keep alive
增加`爬資料 .m` 粗略 GPS
(65 行未修改)
2018-08-02 03:13 – 03:14 ddio Juan r2272 – r2293
顯示 diff
(172 行未修改)
*前
*有興趣跳坑~ 但需要一點時間多了解一下這個專案,也希望可以有更明確的UI/UX需求
- *目前有的想法如上,稍微清楚的部份「使用情境」,剩下的就需要自己發揮啦~目前是碰到使用者(以需要資料的媒體與 NGO 為主),會聊聊使用上的經驗,網頁沒有裝任何的追蹤程式端 - UI (nuxt)此坑的源頭:薪資與租屋居住品質關聯調查 https://g0v.hackpad.tw/hZwt2iPr78w
+ *目前有的想法如上,稍微清楚的部份「使用情境」,剩下的就需要自己發揮啦~目前是碰到使用者(以需要資料的媒體與 NGO 為主),會聊聊使用上的經驗,網頁沒有裝任何的追蹤程式端 - UI (nuxt)此坑的
+ *統計、資料科學家、ML專家 - 重複物件、住宅物件偵測源頭:薪資與租屋居住品質關聯調查 https://g0v.hackpad.tw/hZwt2iPr78w
*租屋相關資料:https://g0v.hackpad.tw/x1M9qr6Syqw
*標籤「居住」: https://g0v.hackpad.tw/ep/group/E4rnjHPORJO
2018-07-30 05:48 – 06:09 ddio Juan r2250 – r2271
顯示 diff
(55 行未修改)
*`DONE` 提供的設備
*`版權資料,不散佈` 特色說明
- *刊登者代碼(可用 md5 去識別化)
+ *`DONE` 刊登者代碼(可用 md5 去識別化)
*大概的地點 / gps + 半徑?
*同一物件的歷史資料 / 變化
(45 行未修改)
*編碼清理
*
- *爬蟲 keep alive搜尋界面:原型機初號
+ *
+ *增加`爬資料 2.l` 張貼者編碼界面:原型機初號
零號* 資料下載 +資料集說明
BDRelease 0.2爬資料:
- **增加`爬資料 2.l` 張貼者編碼 + `2.m` 粗略 GPS
+ ***爬蟲 keep alive
+ 增加`爬資料 .m` 粗略 GPS
增加爬 `資料 3.ce` 重複物件偵測*有產業專家回報,可能會有屋主將同一物件交給多名仲介交易的情況,所以網站上應該會抓到很多重複,而且發文者不同的相同物件 orz..
*而且實務上也常有假資料,像是給錯誤的地址、盜圖使用等等,因為有些案件一公開就會一堆仲介想辦法找到屋主資訊去爭取委託,導致仲介之間基於競爭關係會給很模糊的資料,在有實際買家接觸時才會帶到真正地點看屋,網路只是用來宣傳
- *
*找同網站的第二資料來源來驗證爬蟲正確度
*搜尋界面:原型機二一初*
(60 行未修改)
2018-07-27 13:18 – 13:18 ddio Juan r2245 – r2249
顯示 diff
(168 行未修改)
*物業管理達人 - 怎樣解釋資料才是對的?端 - 爬蟲 (scrapy)
*後端 - RESTful API
- *UX*+ UI 設計師,救救工程師作的 mockup
+ *U (django)X*+ UI 設計師,救救工程師作的 mockup
*前
*有興趣跳坑~ 但需要一點時間多了解一下這個專案,也希望可以有更明確的UI/UX需求
(3 行未修改)
2018-07-27 06:24 – 06:27 ddio Juan r2202 – r2244
顯示 diff
(169 行未修改)
*後端 - RESTful API
*UX*+ UI 設計師,救救工程師作的 mockup
- *前
- *有興趣跳坑~ 但需要一點時間多了解一下這個專案,也希望可以有更明確的UI/UX需求端 - UI (nuxt)此坑的源頭:薪資與租屋居住品質關聯調查 https://g0v.hackpad.tw/hZwt2iPr78w
+ *前
+ *有興趣跳坑~ 但需要一點時間多了解一下這個專案,也希望可以有更明確的UI/UX需求
+ *目前有的想法如上,稍微清楚的部份「使用情境」,剩下的就需要自己發揮啦~目前是碰到使用者(以需要資料的媒體與 NGO 為主),會聊聊使用上的經驗,網頁沒有裝任何的追蹤程式端 - UI (nuxt)此坑的源頭:薪資與租屋居住品質關聯調查 https://g0v.hackpad.tw/hZwt2iPr78w
*租屋相關資料:https://g0v.hackpad.tw/x1M9qr6Syqw
*標籤「居住」: https://g0v.hackpad.tw/ep/group/E4rnjHPORJO
2018-07-27 04:09 – 04:09 ddio Juan r2187 – r2201
顯示 diff
(160 行未修改)
*降價調降,砍掉重練,照片完全一致 XD
*降價前:https://rent.591.com.tw/rent-detail-6211452.html
- *降價後:https://rent.591.com.tw/rent-detail-6316624.html務,到底什麼資料可以公開阿 XD(洽詢專家中)
+ *降價後:https://rent.591.com.tw/rent-detail-6316624.html
+ *工人洗版,同帳號同物件多次刊登 XD
+ *忠誠路靜巷2+1房,近天母運動公園 https://rent.591.com.tw/rent-detail-6518714.html
+ *天母運動公園對面靜巷三房,近高島屋 https://rent.591.com.tw/rent-detail-6518754.html務,到底什麼資料可以公開阿 XD(洽詢專家中)
*
*後
(7 行未修改)
2018-07-26 15:34 – 15:38 ddio Juan r2127 – r2186
顯示 diff
(146 行未修改)
*樓層
*看起來 < 90 樓是個合理指標,只剩一間高雄 85 大樓的物件沒有過濾掉,剩下都是 < 45 層的*
- *
- *
*坪數
- *< 500坪是個合理指標,超過 500 的都是 10000 坪以上的物件
+ *< 500 坪是個合理指標,超過 500 的都是 10000 坪以上的物件
**
*租金 + 每坪租金
*每坪租金超過 10k 的共有 13 筆,其中大部份是數字填錯,或是刻意打錯,但也有一間是短租型旅館。以月租旅館單日 500 元來說,月租最高不應該超過 15k,以此當作每坪租金的界線,還算合適,雖然有機會抓到一些錯誤的資料
*每坪租金 6k - 10k 的共 21 筆,大多是可短租的宿舍或旅館,但也有一些不是給人住的東西混入,像廣告看板 、店面
+ *樓層 > 建物高,而且不是整棟出租
+ *不過樓層寫 99 的,目前還是整棟 ,所以還是要算在裡面 XD
+ **
+
重複物件
(12 行未修改)
2018-07-25 10:14 – 10:15 ddio Juan r2109 – r2126
顯示 diff
(31 行未修改)
*原始碼:https://github.com/g0v/tw-rental-house-data
*資料說明與下載網站:https://rentalhouse.g0v.ddio.io
+ *聊天室: g0v-slack#tw-rental-house-data https://g0v-tw.slack.com/messages/CBXKTAXHD/
*Mockup: https://app.moqups.com/ddio/eIKAZKBzp4/view/page/aa9df7b72
*即時資料視覺化與快速分析:因為 Metabase 較吃資源,未開放匿名使用,有興趣的人,請聯絡 ddio 開帳號~
(134 行未修改)
2018-07-04 17:01 – 17:01 李皓雲 r2103 – r2108
顯示 diff
(169 行未修改)
2018-06-20 03:10 – 03:14 Peggy Lu r2096 – r2102
顯示 diff
(162 行未修改)
*物業管理達人 - 怎樣解釋資料才是對的?端 - 爬蟲 (scrapy)
*後端 - RESTful API
- *UX + UI 設計師,救救工程師作的 mockup
- *前端 - UI (nuxt)此坑的源頭:薪資與租屋居住品質關聯調查 https://g0v.hackpad.tw/hZwt2iPr78w
+ *UX*+ UI 設計師,救救工程師作的 mockup
+ *前
+ *有興趣跳坑~ 但需要一點時間多了解一下這個專案,也希望可以有更明確的UI/UX需求端 - UI (nuxt)此坑的源頭:薪資與租屋居住品質關聯調查 https://g0v.hackpad.tw/hZwt2iPr78w
*租屋相關資料:https://g0v.hackpad.tw/x1M9qr6Syqw
*標籤「居住」: https://g0v.hackpad.tw/ep/group/E4rnjHPORJO
2018-06-19 16:18 – 16:21 李皓雲 r2088 – r2095
顯示 diff
(168 行未修改)
2018-06-13 14:17 – 14:49 ddio Juan r1625 – r2087
顯示 diff
(38 行未修改)
透過爬蟲,定期收錄台灣各租屋網站、品牌公寓的租屋資料
*目標網站
- *591
+ *`DONE` 591
*崔媽媽
*好房網
*??
*需要的資料內容
- *案號
- *縣市、鄉鎮市區
- *照片
- *頂加、地下室、隔間(如果查得出來)
- *刊登時間、更新時間、關閉時間
- *租金
- *坪數
- *身份限制(學生、上班族)
- *性別
- *提供的設備
- *特色說明
+ *`DONE` 案號
+ *`DONE` 縣市、鄉鎮市區
+ *`版權資料,不散佈` 照片
+ *`DONE` 頂加、地下室、隔間(如果查得出來)
+ *`DONE` 刊登時間、更新時間、關閉時間
+ *`DONE` 租金
+ *`DONE` 坪數
+ *`DONE` 身份限制(學生、上班族)
+ *`DONE` 性別
+ *`DONE` 提供的設備
+ *`版權資料,不散佈` 特色說明
+ *刊登者代碼(可用 md5 去識別化)
*大概的地點 / gps + 半徑?
*同一物件的歷史資料 / 變化
(1 行未修改)
*土地與建物資料,例如坪數、樓層、屋齡
*資料處理方式
- *抓下來後保留原始檔,方便加入演算法時,可以重跑
- *清理資料,將可編碼的資料整理乾淨
+ *`DONE` 抓下來後保留原始檔,方便加入演算法時,可以重跑
+ *`DONE` 清理資料,將可編碼的資料整理乾淨
*判斷同一物件的狀況變化
*清理資料,判斷房屋資料準確度
*頂加
*詐騙房屋
- *各種後設標籤(?)
+ *盜圖
*合併跨平台、平台內的相同物件
*同一物件,多平台投遞
(2 行未修改)
*尋找同戶內的物件
*2018.06 間
- 六間或十床以上,列為公共使用建築,須列管與符合相關安全法規*儲存結果
+ 六間或十床以上,列為公共使用建築,須列管與符合相關安全法規*儲`DONE` 存結果
界面
阿宅 mockup: https://app.moqups.com/ddio/eIKAZKBzp4/view
- *原型機初號
- *傳統資料庫模式,選定過濾條件,顯示結果表格,並提供下載,滿足研究者基本需求(因為本坑的源頭是薪資與租屋居住品質關聯調查 <3)
- *原型機二號
- *每個物件有自己的獨立網址
- *原型機三號
+ **原型機零號
+ *`DONE` 資料下載 +資料集說明
+ *型機初號
+ **更詳細的資料下載頁面,包含
+ 傳每個 csv 最後更新時間、使用的欄位版本 + 資料集成熟度(x.x beta / x.x)
+ *說明資料集版本的意含
+ *提供原始資料外的延伸資料集,例如
+ *重複物件列表
+ *疑似頂加列表
+ *應該是住宅 flag*原型機二號
+ **物件時光機,顯示單一物件的詳細資料
+ *解決 CSV 不方便預覽,而且沒有照片、說明和標題的問題
+ *包含因著作權而無法散佈的資料,限制只有人類可以讀取,加註警語
+ *有趣的統計結果視覺化
+ 原型機三號
+ **傳統資料庫模式,選定過濾條件,顯示結果表格,並提供下載,滿足研究者基本需求(因為本坑的源頭是薪資與租屋居住品質關聯調查 <3)
+ 原型機四號:?
*提供較友善的互動界面,協助研究者找出有趣/想要的資料
- *原型機四號:??
-
開放資料
- *在 Github上定期上傳過去 N 月曾經開放租屋的資料
- *API ?
-
+ *在 Gioogle Drive 定期上傳過每月、每季、每年的資料*AAPI ?
*實做順序
- 支線任務 - 不住頂加有多難
+ 支
+ Release 0.資料:59
+ *1 +,每日 1 次
+ *編碼清理
+ *
+ *爬蟲 keep alive搜尋界面:原型機初號
+ 零號* 資料下載 +資料集說明
+ BDRelease 0.2爬資料:
+ **增加`爬資料 2.l` 張貼者編碼 + `2.m` 粗略 GPS
+ 增加爬 `資料 3.ce` 重複物件偵測*有產業專家回報,可能會有屋主將同一物件交給多名仲介交易的情況,所以網站上應該會抓到很多重複,而且發文者不同的相同物件 orz..
+ *而且實務上也常有假資料,像是給錯誤的地址、盜圖使用等等,因為有些案件一公開就會一堆仲介想辦法找到屋主資訊去爭取委託,導致仲介之間基於競爭關係會給很模糊的資料,在有實際買家接觸時才會帶到真正地點看屋,網路只是用來宣傳
+ *
+ *找同網站的第二資料來源來驗證爬蟲正確度
+ *搜尋界面:原型機二一初*
+ *更詳細的資料下載頁面
+ *物件時光機
+ Release 1.BD
+ 093*歷次黑客松
+ 第參與支線任務拾次佛系黑客松 - 不住頂加有多難
投影片、與頂樓資料表格
*此區開放聊天與筆記~~~
(14 行未修改)
*輕鋼架
*大陽台
-
-
- *01爬資料:59
- *1 +,每日 1 次
- *編碼清理
- *
- *爬蟲 keep alive搜尋界面:原型機初號
-
-
- * 傳統資料庫模式,選定過濾條件,顯示結果表格,並提供下載,滿足研究者基本需求二號BD79
- *爬資料:
- *增加爬資料 3.c 同一物件前後時間變化
- *有產業專家回報,可能會有屋主將同一物件交給多名仲介交易的情況,所以網站上應該會抓到很多重複,而且發文者不同的相同物件 orz..
- *而且實務上也常有假資料,像是給錯誤的地址、盜圖使用等等,因為有些案件一公開就會一堆仲介想辦法找到屋主資訊去爭取委託,導致仲介之間基於競爭關係會給很模糊的資料,在有實際買家接觸時才會帶到真正地點看屋,網路只是用來宣傳
- *準備爬資料 3.d 資料準確度所需的基礎建設
- *找同網站的第二資料來源來驗證爬蟲正確度
- *搜尋界面:原型機二號
- *
-
+ *法
- 087
- TBD
- 093
- TBD
- 人096力
- TBD需求
- *資料勘誤/尋找異常值支線任務
簡單的異常值條件
(6 行未修改)
*
*坪數
- *< 500坪是個合理指標,超過 50
- 的都是 10000 坪以上的物件
- ***
- 每租金 + 每坪租金
+ *< 500坪是個合理指標,超過 500 的都是 10000 坪以上的物件
+ **
+ *租金 + 每坪租金
*每坪租金超過 10k 的共有 13 筆,其中大部份是數字填錯,或是刻意打錯,但也有一間是短租型旅館。以月租旅館單日 500 元來說,月租最高不應該超過 15k,以此當作每坪租金的界線,還算合適,雖然有機會抓到一些錯誤的資料
*每坪租金 6k - 10k 的共 21 筆,大多是可短租的宿舍或旅館,但也有一些不是給人住的東西混入,像廣告看板 、店面
- 重複物件範*降價調降,砍掉重練,照片完全一致 XD
- *降價前:https://rent.591.com.tw/rent-detail-6211452.html
- *降價後:https://rent.591.com.tw/rent-detail-6316624.html
-
- *法務,到底什麼資料可以公開阿 XD(洽詢專家中)
- *此坑的源頭:薪資與租屋居住品質關聯調查 https://g0v.hackpad.tw/hZwt2iPr78w
+ 重複物件
+ *降價調降,砍掉重練,照片完全一致 XD
+ *降價前:https://rent.591.com.tw/rent-detail-6211452.html
+ *降價後:https://rent.591.com.tw/rent-detail-6316624.html務,到底什麼資料可以公開阿 XD(洽詢專家中)
+ *
+ *後
+ *物業管理達人 - 怎樣解釋資料才是對的?端 - 爬蟲 (scrapy)
+ *後端 - RESTful API
+ *UX + UI 設計師,救救工程師作的 mockup
+ *前端 - UI (nuxt)此坑的源頭:薪資與租屋居住品質關聯調查 https://g0v.hackpad.tw/hZwt2iPr78w
*租屋相關資料:https://g0v.hackpad.tw/x1M9qr6Syqw
*標籤「居住」: https://g0v.hackpad.tw/ep/group/E4rnjHPORJO
2018-06-12 03:32 – 03:36 ddio Juan r1585 – r1624
顯示 diff
(66 行未修改)
*詐騙房屋
*各種後設標籤(?)
- *合併跨平台的相同物件
- *儲存結果
+ *合併跨平台、平台內的相同物件
+ *同一物件,多平台投遞
+ *同一物件,多仲介投遞
+ *同一物件,多個網頁(隱藏過去開價)
+ *尋找同戶內的物件
+ *2018.06 間
+ 六間或十床以上,列為公共使用建築,須列管與符合相關安全法規*儲存結果
界面
(86 行未修改)
2018-06-11 17:23 – 17:26 Yu-Han Yang r1575 – r1584
顯示 diff
(158 行未修改)
2018-06-07 09:56 – 09:56 ddio Juan r1561 – r1574
顯示 diff
(56 行未修改)
*大概的地點 / gps + 半徑?
*同一物件的歷史資料 / 變化
+ *連結外部資料
+ *土地與建物資料,例如坪數、樓層、屋齡
*資料處理方式
*抓下來後保留原始檔,方便加入演算法時,可以重跑
(96 行未修改)
2018-06-07 08:05 – 08:08 kiang r1522 – r1560
顯示 diff
(115 行未修改)
*增加爬資料 3.c 同一物件前後時間變化
*有產業專家回報,可能會有屋主將同一物件交給多名仲介交易的情況,所以網站上應該會抓到很多重複,而且發文者不同的相同物件 orz..
+ *而且實務上也常有假資料,像是給錯誤的地址、盜圖使用等等,因為有些案件一公開就會一堆仲介想辦法找到屋主資訊去爭取委託,導致仲介之間基於競爭關係會給很模糊的資料,在有實際買家接觸時才會帶到真正地點看屋,網路只是用來宣傳
*準備爬資料 3.d 資料準確度所需的基礎建設
*找同網站的第二資料來源來驗證爬蟲正確度
(36 行未修改)
2018-06-07 02:14 – 02:15 ddio Juan r1502 – r1521
顯示 diff
(114 行未修改)
*爬資料:
*增加爬資料 3.c 同一物件前後時間變化
+ *有產業專家回報,可能會有屋主將同一物件交給多名仲介交易的情況,所以網站上應該會抓到很多重複,而且發文者不同的相同物件 orz..
*準備爬資料 3.d 資料準確度所需的基礎建設
*找同網站的第二資料來源來驗證爬蟲正確度
(36 行未修改)
2018-06-06 12:42 – 12:42 許守傑 r1500 – r1501
顯示 diff
(154 行未修改)
2018-06-06 11:48 – 11:49 ddio Juan r1471 – r1499
顯示 diff
(31 行未修改)
*原始碼:https://github.com/g0v/tw-rental-house-data
*資料說明與下載網站:https://rentalhouse.g0v.ddio.io
+ *Mockup: https://app.moqups.com/ddio/eIKAZKBzp4/view/page/aa9df7b72
*即時資料視覺化與快速分析:因為 Metabase 較吃資源,未開放匿名使用,有興趣的人,請聯絡 ddio 開帳號~
(74 行未修改)
*爬蟲 keep alive搜尋界面:原型機初號
- 二號BD79
+
+ * 傳統資料庫模式,選定過濾條件,顯示結果表格,並提供下載,滿足研究者基本需求二號BD79
*爬資料:
*增加爬資料 3.c 同一物件前後時間變化
(38 行未修改)
2018-06-05 02:47 – 02:50 ddio Juan r1436 – r1470
顯示 diff
(31 行未修改)
*原始碼:https://github.com/g0v/tw-rental-house-data
*資料說明與下載網站:https://rentalhouse.g0v.ddio.io
+ *即時資料視覺化與快速分析:因為 Metabase 較吃資源,未開放匿名使用,有興趣的人,請聯絡 ddio 開帳號~
*功能規劃
(116 行未修改)
2018-06-04 17:01 – 17:02 ddio Juan r1418 – r1435
顯示 diff
(30 行未修改)
*目前成果
*原始碼:https://github.com/g0v/tw-rental-house-data
+ *資料說明與下載網站:https://rentalhouse.g0v.ddio.io
*功能規劃
(116 行未修改)
2018-06-04 06:34 ddio Juan r1417
顯示 diff
(3 行未修改)
*想解決的問題
- 台灣租屋市場長期國防布,不只市場效能不彰、資訊不對等產生套利空間,就算政府或民間想要介入改變,也無法準確描述問題與定義有效的衡量指標,因果循環下,只能使用有限的資料進行實驗。儘管要讓租屋市場能夠被「看見」,需要透過外部制度改革與內部供需雙方意識的改變,無法透過單一方法就解決所有問題,但至少目前能作的,是整理目前已公開,但尚未結構化的租屋資料,長期追蹤,協助後續的問題分析。
+ 台灣租屋市場長期國防布,不只市場效能不彰、資訊不對等產生套利空間,就算政府或民間想要介入改變,也無法準確描述問題與定義有效的衡量指標,因果循環下,只能使用有限的資料進行實驗。儘管要讓租屋市場能夠被「看見」,需要透過外部制度改革與內部供需雙方意識的改變,無法透過單一方法就解決所有問題,但至少目前能作的,是整理已公開,但尚未結構化的租屋資料,長期追蹤,協助後續的問題分析。
目前可公開的租屋資訊,散落在各民間租屋網站,但各網站的資料格式不統一,成交後租屋資料就會消失,而且還有各種詐騙內容(隱匿頂加、詐騙照片),因此需要有一個能夠收集並清理資料的地方,存放民間的租屋資料。
(142 行未修改)
2018-05-29 13:28 – 13:34 ddio Juan r1415 – r1416
顯示 diff
(150 行未修改)
2018-05-29 09:29 ddio Juan r1414
顯示 diff
(150 行未修改)
2018-05-29 05:50 – 05:51 ddio Juan r1400 – r1413
顯示 diff
(65 行未修改)
界面
+ 阿宅 mockup: https://app.moqups.com/ddio/eIKAZKBzp4/view
+
*原型機初號
*傳統資料庫模式,選定過濾條件,顯示結果表格,並提供下載,滿足研究者基本需求(因為本坑的源頭是薪資與租屋居住品質關聯調查 <3)
(79 行未修改)
2018-05-28 01:57 – 01:57 ddio Juan r1397 – r1399
顯示 diff
(135 行未修改)
***
每租金 + 每坪租金
- *每坪租金超過 10k 的共有 13 筆,其中大部份是數字填錯,或是刻意打錯,但也有一間是短租型旅館。以月租旅館單日 500 元來說,月租最高不應該超過 15k,以此當作租金與每坪租金的界線,還算合適,雖然有機會抓到一些錯誤的資料
+ *每坪租金超過 10k 的共有 13 筆,其中大部份是數字填錯,或是刻意打錯,但也有一間是短租型旅館。以月租旅館單日 500 元來說,月租最高不應該超過 15k,以此當作每坪租金的界線,還算合適,雖然有機會抓到一些錯誤的資料
*每坪租金 6k - 10k 的共 21 筆,大多是可短租的宿舍或旅館,但也有一些不是給人住的東西混入,像廣告看板 、店面
重複物件範*降價調降,砍掉重練,照片完全一致 XD
(8 行未修改)
2018-05-24 14:13 – 14:15 ddio Juan r1353 – r1396
顯示 diff
(123 行未修改)
簡單的異常值條件
+ *物件與建物類型:
+ *建物類型建議只挑公寓、透天、電梯大樓,因為華廈的數量過少,每個縣市大概都 < 1%
+ *物件類型建議只挑整層住家、獨立套房、分租套房、雅房較為保險,雖然「其他」裡也有些是住宅,但也可能是其他不是給人類住的(?!)的東西
*樓層
*看起來 < 90 樓是個合理指標,只剩一間高雄 85 大樓的物件沒有過濾掉,剩下都是 < 45 層的*
(18 行未修改)
2018-05-24 12:11 – 12:12 ddio Juan r1343 – r1352
顯示 diff
(27 行未修改)
身為想要調查租金行情的房東...
從目前的資料裡,看不出房客滿意度呦 XD
+
+ *目前成果
+ *原始碼:https://github.com/g0v/tw-rental-house-data
*功能規劃
(111 行未修改)
2018-05-24 04:41 – 06:40 ddio Juan r1102 – r1342
顯示 diff
(117 行未修改)
人096力
TBD需求
+ *資料勘誤/尋找異常值支線任務
+ 簡單的異常值條件
+
+ *樓層
+ *看起來 < 90 樓是個合理指標,只剩一間高雄 85 大樓的物件沒有過濾掉,剩下都是 < 45 層的*
+ *
+ *
+ *坪數
+ *< 500坪是個合理指標,超過 50
+ 的都是 10000 坪以上的物件
+ ***
+ 每租金 + 每坪租金
+ *每坪租金超過 10k 的共有 13 筆,其中大部份是數字填錯,或是刻意打錯,但也有一間是短租型旅館。以月租旅館單日 500 元來說,月租最高不應該超過 15k,以此當作租金與每坪租金的界線,還算合適,雖然有機會抓到一些錯誤的資料
+ *每坪租金 6k - 10k 的共 21 筆,大多是可短租的宿舍或旅館,但也有一些不是給人住的東西混入,像廣告看板 、店面
+ 重複物件範*降價調降,砍掉重練,照片完全一致 XD
+ *降價前:https://rent.591.com.tw/rent-detail-6211452.html
+ *降價後:https://rent.591.com.tw/rent-detail-6316624.html
+
*法務,到底什麼資料可以公開阿 XD(洽詢專家中)
(3 行未修改)
2018-05-14 14:03 – 14:03 ddio Juan r1100 – r1101
顯示 diff
(119 行未修改)
*法務,到底什麼資料可以公開阿 XD(洽詢專家中)
-
- *相關專案
*此坑的源頭:薪資與租屋居住品質關聯調查 https://g0v.hackpad.tw/hZwt2iPr78w
*租屋相關資料:https://g0v.hackpad.tw/x1M9qr6Syqw
(1 行未修改)
2018-05-05 09:44 小蟹 李 r1099
顯示 diff
(80 行未修改)
*30 次佛系黑客松成果:
*from Lucien -法律問題都解決,爬蟲原始碼和資料都可以公開了~
- *from runny - 可以用使用執照 / 建照查詢房屋樓層(如果地址有公佈的話)
+ *from ronny - 可以用使用執照 / 建照查詢房屋樓層(如果地址有公佈的話)
*from poga -可以用 Metabase 作大表格的查詢、視覺化,不需要寫程式或 sql
*挑了 6F/6F的房子,完成了 30/487
(41 行未修改)
2018-05-05 09:14 – 09:29 ddio Juan r941 – r1098
顯示 diff
(75 行未修改)
*實做順序
- *支線任務 - 不住頂加有多難
+ 支線任務 - 不住頂加有多難
投影片、與頂樓資料表格
*此區開放聊天與筆記~~~
+ *30 次佛系黑客松成果:
+ *from Lucien -法律問題都解決,爬蟲原始碼和資料都可以公開了~
+ *from runny - 可以用使用執照 / 建照查詢房屋樓層(如果地址有公佈的話)
+ *from poga -可以用 Metabase 作大表格的查詢、視覺化,不需要寫程式或 sql
+ *挑了 6F/6F的房子,完成了 30/487
+ *下一步:開放資料 + API + 讓頂加標注更方便
+
*可能的頂加辨認方向:
*拿已經標註頂加的資料當訓練資料?
(37 行未修改)
2018-05-05 01:38 – 02:31 ddio Juan r870 – r940
顯示 diff
(75 行未修改)
*實做順序
+ *支線任務 - 不住頂加有多難
+ 投影片、與頂樓資料表格
+ *此區開放聊天與筆記~~~
+ *可能的頂加辨認方向:
+ *拿已經標註頂加的資料當訓練資料?
+ *數字裡的資訊:
+ *價位 x 房型 x樓層?
+ *文字裡的資訊:
+ *大陽台
+ *圖片裡的資訊:
+ *輕鋼架
+ *大陽台
+
*01爬資料:59
(27 行未修改)
2018-05-04 10:17 – 10:19 ddio Juan r841 – r869
顯示 diff
(63 行未修改)
界面
*原型機初號
- *傳統資料庫模式,選定過濾條件,顯示結果表格,並提供下載,滿足研究者基本需求
+ *傳統資料庫模式,選定過濾條件,顯示結果表格,並提供下載,滿足研究者基本需求(因為本坑的源頭是薪資與租屋居住品質關聯調查 <3)
*原型機二號
*每個物件有自己的獨立網址
(38 行未修改)
2018-04-26 08:43 – 08:43 ddio Juan r827 – r840
顯示 diff
(76 行未修改)
*實做順序
- *79爬資料:59
+ *01爬資料:59
*1 +,每日 1 次
*編碼清理
(1 行未修改)
*爬蟲 keep alive搜尋界面:原型機初號
- 二號BD87
+ 二號BD79
*爬資料:
*增加爬資料 3.c 同一物件前後時間變化
(4 行未修改)
+ 087
+ TBD
093
TBD
(9 行未修改)
2018-04-26 02:21 – 02:21 ddio Juan r825 – r826
顯示 diff
(104 行未修改)
2018-04-25 07:34 – 08:17 ddio Juan r819 – r824
顯示 diff
(51 行未修改)
*同一物件的歷史資料 / 變化
*資料處理方式
- *抓下來後保留原始檔,方便加入先演算法時,可以重跑
+ *抓下來後保留原始檔,方便加入演算法時,可以重跑
*清理資料,將可編碼的資料整理乾淨
*判斷同一物件的狀況變化
(21 行未修改)
*79爬資料:59
- *1 +,每日?次
+ *1 +,每日 1 次
*編碼清理
*
(22 行未修改)
2018-03-19 07:54 – 08:39 ddio Juan r366 – r818
顯示 diff
(8 行未修改)
*使用情境
- 希望透過爬蟲,長期收集各租屋網站、品牌公寓的可公開資訊,清洗後整理成格式統一的資料,供後需有需的的人使用。
+ 希望透過爬蟲,長期收集各租屋網站、品牌公寓的可公開資訊,清洗後整理成格式統一的資料,供後續有需要的人使用。
+
+ 身為需要租屋資料來作研究的 NGO ...
+ *可以根據需求過濾出想要的物件
+ *時間、房型、價位,諸如此類
+ *可以來這個網站下載資料,下載的資料可以拿去跑其他程式或統計軟體
+ *每個物件要有可辨識編號,方便長期追蹤
+ *資料最好是已經編碼過的資料,方便跑統計
+ *話說 SPSS 現在能不能接受 utf8 當作編碼的字串阿 XD
+
+
+ 身為需要租屋資料來作其他服務的宅宅...
+ TBD
+
+ 身為想要來看某屋成交行情、房客更換頻率的租屋客...
+ TBD
+ 身為想要調查租金行情的房東...
+ 從目前的資料裡,看不出房客滿意度呦 XD
*功能規劃
(6 行未修改)
*??
*需要的資料內容
+ *案號
+ *縣市、鄉鎮市區
+ *照片
+ *頂加、地下室、隔間(如果查得出來)
+ *刊登時間、更新時間、關閉時間
+ *租金
+ *坪數
+ *身份限制(學生、上班族)
+ *性別
+ *提供的設備
+ *特色說明
+ *大概的地點 / gps + 半徑?
*同一物件的歷史資料 / 變化
*資料處理方式
- *抓下來後保留原始檔
+ *抓下來後保留原始檔,方便加入先演算法時,可以重跑
*清理資料,將可編碼的資料整理乾淨
*判斷同一物件的狀況變化
(2 行未修改)
*詐騙房屋
*各種後設標籤(?)
- *儲存
+ *合併跨平台的相同物件
+ *儲存結果
- 搜尋界面
+ 界面
+ *原型機初號
+ *傳統資料庫模式,選定過濾條件,顯示結果表格,並提供下載,滿足研究者基本需求
+ *原型機二號
+ *每個物件有自己的獨立網址
+ *原型機三號
+ *提供較友善的互動界面,協助研究者找出有趣/想要的資料
+ *原型機四號:??
開放資料
+ *在 Github上定期上傳過去 N 月曾經開放租屋的資料
+ *API ?
*實做順序
+ *79爬資料:59
+ *1 +,每日?次
+ *編碼清理
+ *
+ *爬蟲 keep alive搜尋界面:原型機初號
- *人力需求
+ 二號BD87
+ *爬資料:
+ *增加爬資料 3.c 同一物件前後時間變化
+ *準備爬資料 3.d 資料準確度所需的基礎建設
+ *找同網站的第二資料來源來驗證爬蟲正確度
+ *搜尋界面:原型機二號
+ *
+
+
+ 093
+ TBD
+ 人096力
+ TBD需求
*法務,到底什麼資料可以公開阿 XD(洽詢專家中)
(5 行未修改)
2018-03-19 01:35 – 01:37 ddio Juan r340 – r365
顯示 diff
(7 行未修改)
目前可公開的租屋資訊,散落在各民間租屋網站,但各網站的資料格式不統一,成交後租屋資料就會消失,而且還有各種詐騙內容(隱匿頂加、詐騙照片),因此需要有一個能夠收集並清理資料的地方,存放民間的租屋資料。
- *解決問題的方式
+ *使用情境
希望透過爬蟲,長期收集各租屋網站、品牌公寓的可公開資訊,清洗後整理成格式統一的資料,供後需有需的的人使用。
+
+ *功能規劃
爬資料
透過爬蟲,定期收錄台灣各租屋網站、品牌公寓的租屋資料
(19 行未修改)
開放資料
- *執行計畫
+ *實做順序
+
*人力需求
(7 行未修改)
2018-03-18 15:43 – 16:07 ddio Juan r3 – r339
顯示 diff
開放民間租屋資料
+
+ 本文以 CC0 拋棄一切著作權
+
+ *想解決的問題
+ 台灣租屋市場長期國防布,不只市場效能不彰、資訊不對等產生套利空間,就算政府或民間想要介入改變,也無法準確描述問題與定義有效的衡量指標,因果循環下,只能使用有限的資料進行實驗。儘管要讓租屋市場能夠被「看見」,需要透過外部制度改革與內部供需雙方意識的改變,無法透過單一方法就解決所有問題,但至少目前能作的,是整理目前已公開,但尚未結構化的租屋資料,長期追蹤,協助後續的問題分析。
+
+ 目前可公開的租屋資訊,散落在各民間租屋網站,但各網站的資料格式不統一,成交後租屋資料就會消失,而且還有各種詐騙內容(隱匿頂加、詐騙照片),因此需要有一個能夠收集並清理資料的地方,存放民間的租屋資料。
+
+ *解決問題的方式
+ 希望透過爬蟲,長期收集各租屋網站、品牌公寓的可公開資訊,清洗後整理成格式統一的資料,供後需有需的的人使用。
+
+ 爬資料
+ 透過爬蟲,定期收錄台灣各租屋網站、品牌公寓的租屋資料
+ *目標網站
+ *591
+ *崔媽媽
+ *好房網
+ *??
+ *需要的資料內容
+ *同一物件的歷史資料 / 變化
+ *資料處理方式
+ *抓下來後保留原始檔
+ *清理資料,將可編碼的資料整理乾淨
+ *判斷同一物件的狀況變化
+ *清理資料,判斷房屋資料準確度
+ *頂加
+ *詐騙房屋
+ *各種後設標籤(?)
+ *儲存
+
+ 搜尋界面
+
+ 開放資料
+
+ *執行計畫
+
+ *人力需求
+
+ *法務,到底什麼資料可以公開阿 XD(洽詢專家中)
+
+ *相關專案
+ *此坑的源頭:薪資與租屋居住品質關聯調查 https://g0v.hackpad.tw/hZwt2iPr78w
+ *租屋相關資料:https://g0v.hackpad.tw/x1M9qr6Syqw
+ *標籤「居住」: https://g0v.hackpad.tw/ep/group/E4rnjHPORJO
2018-03-18 15:43 (unknown) r2
顯示 diff
(1 行未修改)
2018-03-18 15:43 ddio Juan r1
顯示 diff
- Untitled
-
- This pad text is synchronized as you type, so that everyone viewing this page sees the same text. This allows you to collaborate seamlessly on documents!
+ 開放民間租屋資料
2018-03-18 15:29 (unknown) r0
顯示 diff
+ Untitled
+ This pad text is synchronized as you type, so that everyone viewing this page sees the same text. This allows you to collaborate seamlessly on documents!