jrf_data

本頁請關掉 Privacy Badger 不然附圖會看不到哦!

沒聽過 Privacy Badger 的話,推薦參考 https://chrome.google.com/webstore/detail/privacy-badger/pkehgijcmpdhfbdbbnkijodmdjhbjlgp?hl=zh-TW 這是 EFF 推出的增加瀏覽隱私的套件,歡迎使用!

工作表

請先填寫本表,再開始爬資料,謝謝!

以下的下載似乎不包括簡易判決,在司法院的法學資料檢索系統中,有分裁判書查詢與簡易案件查詢,以下的資料似乎只包括裁判書查詢系統中的資料。

年度 下載位置 gh-pages
2015 http://203.69.90.98/db.sql.gz
2014 http://203.69.90.98/db.sql.gz
2013 http://203.69.90.98/db.sql.gz
2012 http://203.69.90.98/db.sql.gz
2011 https://github.com/kiang/jrf_data_2011 http://miaoski.github.io/jrf-2011/
2010 https://github.com/miaoski/jrf-data-2010
2009 https://github.com/miaoski/jrf-data-2010
2008 https://github.com/miaoski/jrf-data-2010
2007 https://github.com/kiang/jrf_data_2007 http://miaoski.github.io/jrf-2007/
2006 https://github.com/miaoski/jrf-data-2010
2005 https://github.com/kiang/jrf_data_2005 http://miaoski.github.io/jrf-2005/
2004 https://github.com/kiang/jrf_data_2004 http://miaoski.github.io/jrf-2004/
2003 https://github.com/miaoski/jrf-data-2010
2002 https://github.com/kiang/jrf_data_2002
2001 https://github.com/miaoski/jrf-data-2010
2000 https://github.com/miaoski/jrf-data-2010
1999 https://github.com/kiang/jrf_data_1998-1999 http://miaoski.github.io/jrf-1999/
1998 https://github.com/kiang/jrf_data_1998-1999 http://miaoski.github.io/jrf-1998/
1997 https://github.com/kiang/jrf_data_1998-1999 http://miaoski.github.io/jrf-1997/
1996 https://github.com/miaoski/jrf-data-2010

缺檔案待補

歷審裁判?

http://jirs.judicial.gov.tw/FJUD/HISTORYSELF.aspx?SwitchFrom=1&selectedOwner=H&selectedCrmyy=086&selectedCrmid=%E5%8F%B0%E4%B8%8A&selectedCrmno=006052&selectedCrtid=TPS

Tor Client

由於 DigitalOcean 不反對使用 Tor, 我們可以參考 https://gist.github.com/pdp7/138768f9279740096fe8 的做法,先架設 Tor Service 。以下是 step-by-step 照著做就可以了。

  1. 先申請 Digital Ocean 帳號。
  2. Create Droplet
  3. Distribution : Ubuntu 14.04.3 x64 預設的
  4. Size :  $10/mo 預設的 ← 表示你用滿一個月的話,要付 US$10
  5. Data center region : 都可以,但西岸的網路比較快,我選 San Francisco
  6. Add SSH Key : 請看網路上的教學文...
  7. Choose a droplet name : 取一個自己懂的名字,像這樣
  8. 開好後, Mac 下請用 ssh 登入,Windows 下可以用 putty 登入主機,開始打一堆指令...orz

建議使用 screen ,一個螢幕看 Tor 的使用量,一個螢幕抓判決,就算斷線也沒關係。

重新連上的時候 screen -d -r 就可以恢復原先的 session 了。

在第 0 個視窗打以下指令:

按 Ctrl-A Ctrl-C 開新視窗,就可以開始抓判決書。

Ruby (雨蒼版)

在第 1 個視窗打以下指令:

看到這樣的畫面,就是有開始抓了

PHP (Kiang 版)

在第1個視窗打以下指令:

執行:

看到這樣的畫面,就是有開始抓了

確認 Tor 的流量

離開前 Ctrl-A 0 確認一下 tor 的流量不要爆 quota ...

嗯,下載 93.4 Kb/sec 應該不會爆一個月 2TB 的限制吧...

要離開,直接關掉視窗就可以了,它會在幕後繼續跑。下次再 ssh / putty 上來,打 screen -d -r 就可以接回關掉的視窗。

爬完之後的上傳

[雨蒼版] 資料都放在 ~/jrf_data/data/judgemets/

打包

[Kiang版] 資料都放在 ~/jrf/cache/2008/01/01/

打包

打包後,請上傳到 Github 或 Dropbox 再分享連結。謝謝!

判決資料個人隱私權討論

這邊可能要討論一下,如果把判決書資料放到可被 Google 搜尋的地方,會不會有隱私權的疑慮