jrf_data
本頁請關掉 Privacy Badger 不然附圖會看不到哦!
沒聽過 Privacy Badger 的話,推薦參考 https://chrome.google.com/webstore/detail/privacy-badger/pkehgijcmpdhfbdbbnkijodmdjhbjlgp?hl=zh-TW 這是 EFF 推出的增加瀏覽隱私的套件,歡迎使用!
工作表
請先填寫本表,再開始爬資料,謝謝!
以下的下載似乎不包括簡易判決,在司法院的法學資料檢索系統中,有分裁判書查詢與簡易案件查詢,以下的資料似乎只包括裁判書查詢系統中的資料。
年度 |
下載位置 |
gh-pages |
2015 |
http://203.69.90.98/db.sql.gz |
|
2014 |
http://203.69.90.98/db.sql.gz |
|
2013 |
http://203.69.90.98/db.sql.gz |
|
2012 |
http://203.69.90.98/db.sql.gz |
|
2011 |
https://github.com/kiang/jrf_data_2011 |
http://miaoski.github.io/jrf-2011/ |
2010 |
https://github.com/miaoski/jrf-data-2010 |
|
2009 |
https://github.com/miaoski/jrf-data-2010 |
|
2008 |
https://github.com/miaoski/jrf-data-2010 |
|
2007 |
https://github.com/kiang/jrf_data_2007 |
http://miaoski.github.io/jrf-2007/ |
2006 |
https://github.com/miaoski/jrf-data-2010 |
|
2005 |
https://github.com/kiang/jrf_data_2005 |
http://miaoski.github.io/jrf-2005/ |
2004 |
https://github.com/kiang/jrf_data_2004 |
http://miaoski.github.io/jrf-2004/ |
2003 |
https://github.com/miaoski/jrf-data-2010 |
|
2002 |
https://github.com/kiang/jrf_data_2002 |
|
2001 |
https://github.com/miaoski/jrf-data-2010 |
|
2000 |
https://github.com/miaoski/jrf-data-2010 |
|
1999 |
https://github.com/kiang/jrf_data_1998-1999 |
http://miaoski.github.io/jrf-1999/ |
1998 |
https://github.com/kiang/jrf_data_1998-1999 |
http://miaoski.github.io/jrf-1998/ |
1997 |
https://github.com/kiang/jrf_data_1998-1999 |
http://miaoski.github.io/jrf-1997/ |
1996 |
https://github.com/miaoski/jrf-data-2010 |
|
缺檔案待補
- ./2002/01/01/case_3c81c87ceda1775015396573e9f5affb
- ./2002/01/01/case_8d3070d3e372c5188266b7b5b3be8382
- ./2002/01/01/case_eb11494c12e5306c332d9cd686141767
- ./2002/01/07/case_dd99f7ed4c8f6e2016e70a68287dc52f
- ./2002/01/07/case_ecb506982b1e165d0efe95353dfe438f
- ./2002/02/14/case_6f96a5d1b300912c83edb133ad79dbbd
- ./2002/02/14/case_f6005e0934fb6497912b475a2ef7dcdd
- ./2002/03/18/case_a8ad58993a3de274129566aac2f05123
- ./2002/03/26/case_b24815eee273e35384884d36769e3cb8
- ./2002/03/28/case_596f9ee7fbf468ca226cef18cd3beb9b
- ./2002/04/15/case_0185e3de45b324bac2d8c05423906c2f
- ./2002/06/30/case_a171b2c050948d6770672affcf6be2dc
- ./2002/06/30/case_c2e67924f8e03ee10141098ace815a49
- ./2002/07/02/case_6556e38a1c12d426d1faac98cc485e53
- ./2004/01/05/case_a2dfb7d51ea37a9d646c3858041af7bd
- ./2004/01/07/case_b09cafc779f01766bf2d063c64a976a9
- ./2004/01/07/case_d4fda857554e67ef10dd0fe830dff89e
- ./2004/03/15/case_63e3f0b53fc4d50f3c54a5ffed6ecb36
- ./2004/03/17/case_05aecd82ee3e84fb5f1e8256ec9979df
- ./2004/03/17/case_ab2875b8975ab7dc42595c3440d09cfc
- ./2004/04/08/case_64980e6ee39edb7bfdb2fd0bfe9c645d
- ./2004/04/08/case_681fdcee50691d15fc6fc10a45e3260d
- ./2004/07/27/case_eae4b8192376fa1a27fdce014d6d2046
- ./2005/06/24/case_da1219fe2db27f7553513e387c56ad91
- ./2007/01/01/case_545f2cf162d9265dd6b714b2783710e2
- ./2007/05/21/case_fa1dc0db610d92f0703399aaf1446552
- ./2007/06/06/case_e140b2365388ef8c66f8df0fba9b844b
- ./2007/06/10/case_850ebde6d9f7464ac0ccf51de32afced
- ./2011/05/23/case_445ee50895eefce9a20abeee2e9fad80
- ./2011/05/23/case_ce3c3502a20617bf60afff2f841bf95e
- ./2011/05/31/case_d57da3a56af96387b3b319ff2a260dbe
- ./2011/08/31/case_9dbb2b0826b1259af831b5bbd8a8312d
- ./2011/09/28/case_a7d54696279815dcd8aaa699b2a369e5
- ./2011/09/30/case_027480e18c1c02a7925e2b2f852dba61
歷審裁判?
http://jirs.judicial.gov.tw/FJUD/HISTORYSELF.aspx?SwitchFrom=1&selectedOwner=H&selectedCrmyy=086&selectedCrmid=%E5%8F%B0%E4%B8%8A&selectedCrmno=006052&selectedCrtid=TPS
Tor Client
由於 DigitalOcean 不反對使用 Tor, 我們可以參考 https://gist.github.com/pdp7/138768f9279740096fe8 的做法,先架設 Tor Service 。以下是 step-by-step 照著做就可以了。
- 先申請 Digital Ocean 帳號。
- Create Droplet
- Distribution : Ubuntu 14.04.3 x64 預設的
- Size : $10/mo 預設的 ← 表示你用滿一個月的話,要付 US$10
- Data center region : 都可以,但西岸的網路比較快,我選 San Francisco
- Add SSH Key : 請看網路上的教學文...
- Choose a droplet name : 取一個自己懂的名字,像這樣
- 開好後, Mac 下請用 ssh 登入,Windows 下可以用 putty 登入主機,開始打一堆指令...orz
- apt-get update
- apt-get dist-upgrade -y
- apt-get install tor tor-arm
- cd
- wget https://gist.githubusercontent.com/miaoski/bf5afdada7bb4c00f873/raw/441009fb02dd4548c136d88b480097d9f010d39a/.screenrc
- screen
建議使用 screen ,一個螢幕看 Tor 的使用量,一個螢幕抓判決,就算斷線也沒關係。
重新連上的時候 screen -d -r 就可以恢復原先的 session 了。
在第 0 個視窗打以下指令:
- /etc/init.d/tor restart
- sudo -u debian-tor arm
按 Ctrl-A Ctrl-C 開新視窗,就可以開始抓判決書。
Ruby (雨蒼版)
在第 1 個視窗打以下指令:
- apt-get install screen ruby ruby-dev ruby-mechanize
- wget https://github.com/miaoski/jrf-data-2010/raw/master/jrf_data.tar.gz
- tar zfx jrf_data.tar.gz
- cd jrf_data
- ./run.sh 2009 ← 這個就是你要抓的年份了
看到這樣的畫面,就是有開始抓了
PHP (Kiang 版)
在第1個視窗打以下指令:
- apt-get install php5-cli php5-curl
- mkdir ~/jrf
- cd ~/jrf
- wget https://raw.githubusercontent.com/miaoski/jrf-data-2010/master/get_judgements_cache.php
- wget https://raw.githubusercontent.com/kiang/jrf_data/master/courts.json
執行:
- php get_judgements_cache.php 2008 ← 這個就是你要抓的年份了
看到這樣的畫面,就是有開始抓了
- 這個程式只會抓網頁,不做任何處理,所以產出的檔案需要另外解析
- 在 cache 目錄下會產生 2008.log 與 2008 目錄, 2008.log 是即時的記錄、 2008 目錄則是放置所有取得的網頁檔案
- 程式每次抓取兩天的資料,然後放在第一天的日期目錄下,例如 2008/01/01~2008/01/02 的資料會放在 cache/2008/01/01 中
- list_* 的檔案是列表檢索產出的網頁、case_* 則是個別判決書檢索產出的網頁
- 在 files_map.csv 可以看到檔案的明細,以及取得個別檔案使用的參數(並不是永久網址,所以直接貼到瀏覽器是無法使用的,只是用來方便辨識)
- 可以用 https://github.com/kiang/jrf_data/blob/master/cache2archive.php 打包產出的檔案
確認 Tor 的流量
離開前 Ctrl-A 0 確認一下 tor 的流量不要爆 quota ...
嗯,下載 93.4 Kb/sec 應該不會爆一個月 2TB 的限制吧...
要離開,直接關掉視窗就可以了,它會在幕後繼續跑。下次再 ssh / putty 上來,打 screen -d -r 就可以接回關掉的視窗。
爬完之後的上傳
[雨蒼版] 資料都放在 ~/jrf_data/data/judgemets/
打包
- cd ~/jrf_data/data
- tar zfc data-2010.tar.gz judgemets/
[Kiang版] 資料都放在 ~/jrf/cache/2008/01/01/
打包
- cd ~/jrf/cache/
- tar zfc data-2008.tar.gz 2008/
打包後,請上傳到 Github 或 Dropbox 再分享連結。謝謝!
- 2016/01/15 雨蒼的資料庫匯出 - http://203.69.90.98/db.sql.gz
判決資料個人隱私權討論
這邊可能要討論一下,如果把判決書資料放到可被 Google 搜尋的地方,會不會有隱私權的疑慮