jrf_data
編輯歷史
| 時間 | 作者 | 版本 |
|---|---|---|
| 2017-02-27 18:50 – 18:50 | r1451 – r1452 | |
顯示 diff(137 行未修改)
|
||
| 2017-02-26 17:30 – 17:35 | r1428 – r1450 | |
顯示 diff(4 行未修改)
*工作表
請先填寫本表,再開始爬資料,謝謝!
+
+ 以下的下載似乎不包括簡易判決,在司法院的法學資料檢索系統中,有分裁判書查詢與簡易案件查詢,以下的資料似乎只包括裁判書查詢系統中的資料。
*
(127 行未修改)
|
||
| 2016-03-09 06:02 | r1427 | |
顯示 diff(135 行未修改)
|
||
| 2016-03-09 03:45 | r1426 | |
顯示 diff(135 行未修改)
|
||
| 2016-03-07 03:38 – 03:40 | r1358 – r1425 | |
顯示 diff(131 行未修改)
*209165/1/15 db 雨蒼的資料庫匯出 - http://203.69.90.98/db.sql.gz
+ 資*判決資料個人隱私權討論
+ 這邊可能要討論一下,如果把判決書資料放到可被 Google 搜尋的地方,會不會有隱私權的疑慮
|
||
| 2016-03-06 10:07 – 10:07 | r1351 – r1357 | |
顯示 diff(44 行未修改)
*./2011/09/30/case_027480e18c1c02a7925e2b2f852dba61
+ 歷審裁判?
+ http://jirs.judicial.gov.tw/FJUD/HISTORYSELF.aspx?SwitchFrom=1&selectedOwner=H&selectedCrmyy=086&selectedCrmid=%E5%8F%B0%E4%B8%8A&selectedCrmno=006052&selectedCrtid=TPS
*Tor Client
(83 行未修改)
|
||
| 2016-03-06 05:06 – 06:59 | r1313 – r1350 | |
顯示 diff(6 行未修改)
*
+
+ 缺檔案待補
+
+ *./2002/01/01/case_3c81c87ceda1775015396573e9f5affb
+ *./2002/01/01/case_8d3070d3e372c5188266b7b5b3be8382
+ *./2002/01/01/case_eb11494c12e5306c332d9cd686141767
+ *./2002/01/07/case_dd99f7ed4c8f6e2016e70a68287dc52f
+ *./2002/01/07/case_ecb506982b1e165d0efe95353dfe438f
+ *./2002/02/14/case_6f96a5d1b300912c83edb133ad79dbbd
+ *./2002/02/14/case_f6005e0934fb6497912b475a2ef7dcdd
+ *./2002/03/18/case_a8ad58993a3de274129566aac2f05123
+ *./2002/03/26/case_b24815eee273e35384884d36769e3cb8
+ *./2002/03/28/case_596f9ee7fbf468ca226cef18cd3beb9b
+ *./2002/04/15/case_0185e3de45b324bac2d8c05423906c2f
+ *./2002/06/30/case_a171b2c050948d6770672affcf6be2dc
+ *./2002/06/30/case_c2e67924f8e03ee10141098ace815a49
+ *./2002/07/02/case_6556e38a1c12d426d1faac98cc485e53
+ *./2004/01/05/case_a2dfb7d51ea37a9d646c3858041af7bd
+ *./2004/01/07/case_b09cafc779f01766bf2d063c64a976a9
+ *./2004/01/07/case_d4fda857554e67ef10dd0fe830dff89e
+ *./2004/03/15/case_63e3f0b53fc4d50f3c54a5ffed6ecb36
+ *./2004/03/17/case_05aecd82ee3e84fb5f1e8256ec9979df
+ *./2004/03/17/case_ab2875b8975ab7dc42595c3440d09cfc
+ *./2004/04/08/case_64980e6ee39edb7bfdb2fd0bfe9c645d
+ *./2004/04/08/case_681fdcee50691d15fc6fc10a45e3260d
+ *./2004/07/27/case_eae4b8192376fa1a27fdce014d6d2046
+ *./2005/06/24/case_da1219fe2db27f7553513e387c56ad91
+ *./2007/01/01/case_545f2cf162d9265dd6b714b2783710e2
+ *./2007/05/21/case_fa1dc0db610d92f0703399aaf1446552
+ *./2007/06/06/case_e140b2365388ef8c66f8df0fba9b844b
+ *./2007/06/10/case_850ebde6d9f7464ac0ccf51de32afced
+ *./2011/05/23/case_445ee50895eefce9a20abeee2e9fad80
+ *./2011/05/23/case_ce3c3502a20617bf60afff2f841bf95e
+ *./2011/05/31/case_d57da3a56af96387b3b319ff2a260dbe
+ *./2011/08/31/case_9dbb2b0826b1259af831b5bbd8a8312d
+ *./2011/09/28/case_a7d54696279815dcd8aaa699b2a369e5
+ *./2011/09/30/case_027480e18c1c02a7925e2b2f852dba61
+
*Tor Client
(83 行未修改)
|
||
| 2016-03-06 02:20 – 03:17 | r1303 – r1312 | |
顯示 diff(93 行未修改)
|
||
| 2016-03-05 09:36 | r1302 | |
顯示 diff(93 行未修改)
|
||
| 2016-02-15 01:58 | r1301 | |
顯示 diff(93 行未修改)
|
||
| 2016-02-12 09:37 – 09:37 | r1299 – r1300 | |
顯示 diff(93 行未修改)
|
||
| 2016-02-07 04:27 – 05:07 | r1291 – r1298 | |
顯示 diff(93 行未修改)
|
||
| 2016-01-30 08:56 – 09:01 | r1289 – r1290 | |
顯示 diff(93 行未修改)
|
||
| 2016-01-29 08:53 – 08:56 | r1284 – r1288 | |
顯示 diff(93 行未修改)
|
||
| 2016-01-27 17:40 – 17:40 | r1282 – r1283 | |
顯示 diff(93 行未修改)
|
||
| 2016-01-27 05:38 – 05:40 | r1280 – r1281 | |
顯示 diff(93 行未修改)
|
||
| 2016-01-27 02:14 – 02:16 | r1276 – r1279 | |
顯示 diff(93 行未修改)
|
||
| 2016-01-26 15:42 – 16:32 | r1271 – r1275 | |
顯示 diff(93 行未修改)
|
||
| 2016-01-26 06:13 – 06:16 | r1262 – r1270 | |
顯示 diff(93 行未修改)
|
||
| 2016-01-25 14:27 – 14:29 | r1254 – r1261 | |
顯示 diff(93 行未修改)
|
||
| 2016-01-25 02:26 – 02:35 | r1252 – r1253 | |
顯示 diff(93 行未修改)
|
||
| 2016-01-22 09:09 – 09:10 | r1249 – r1251 | |
顯示 diff(93 行未修改)
|
||
| 2016-01-21 12:24 – 12:31 | r1243 – r1248 | |
顯示 diff(93 行未修改)
|
||
| 2016-01-20 11:36 – 11:39 | r1236 – r1242 | |
顯示 diff(93 行未修改)
|
||
| 2016-01-18 13:20 – 13:20 | r1234 – r1235 | |
顯示 diff(93 行未修改)
|
||
| 2016-01-17 15:19 – 15:20 | r1230 – r1233 | |
顯示 diff(93 行未修改)
|
||
| 2016-01-17 08:20 – 08:20 | r1228 – r1229 | |
顯示 diff(93 行未修改)
|
||
| 2016-01-16 13:16 – 13:35 | r1208 – r1227 | |
顯示 diff(93 行未修改)
|
||
| 2016-01-15 08:07 – 08:07 | r1204 – r1207 | |
顯示 diff(93 行未修改)
|
||
| 2016-01-15 06:11 – 06:16 | r1174 – r1203 | |
顯示 diff(87 行未修改)
打包後,請上傳到 Github 或 Dropbox 再分享連結。謝謝!
+
+
+
+ *209165/1/15 db 雨蒼的資料庫匯出 - http://203.69.90.98/db.sql.gz
|
||
| 2016-01-15 02:00 – 03:42 | r1159 – r1173 | |
顯示 diff(89 行未修改)
|
||
| 2016-01-13 03:41 – 03:47 | r978 – r1158 | |
顯示 diff(58 行未修改)
*
+ *這個程式只會抓網頁,不做任何處理,所以產出的檔案需要另外解析
+ *在 cache 目錄下會產生 2008.log 與 2008 目錄, 2008.log 是即時的記錄、 2008 目錄則是放置所有取得的網頁檔案
+ *程式每次抓取兩天的資料,然後放在第一天的日期目錄下,例如 2008/*1/可1~2008/以1/用2 的資料會放在 cache/2008/ 1/01 中
+ *list_* 的檔案是列表檢索產出的網頁、case_* 則是個別判決書檢索產出的網頁
+ *在 files_map.csv 可以看到檔案的明細,以及取得個別檔案使用的參數(並不是永久網址,所以直接貼到瀏覽器是無法使用的,只是用來方便辨識) https://github.com/kiang/jrf_data/blob/master/cache2archive.php 打包產出的檔案
確認 Tor 的流量
(22 行未修改)
|
||
| 2016-01-12 14:14 – 14:58 | r973 – r977 | |
顯示 diff(84 行未修改)
|
||
| 2016-01-12 12:49 – 13:07 | r970 – r972 | |
顯示 diff(84 行未修改)
|
||
| 2016-01-11 09:33 | r969 | |
顯示 diff(84 行未修改)
|
||
| 2016-01-11 02:24 – 02:26 | r965 – r968 | |
顯示 diff(84 行未修改)
|
||
| 2016-01-10 15:35 – 15:37 | r960 – r964 | |
顯示 diff(84 行未修改)
|
||
| 2016-01-09 16:32 – 16:32 | r958 – r959 | |
顯示 diff(84 行未修改)
|
||
| 2016-01-09 10:52 – 10:58 | r954 – r957 | |
顯示 diff(84 行未修改)
|
||
| 2016-01-09 02:43 – 02:53 | r944 – r953 | |
顯示 diff(84 行未修改)
|
||
| 2016-01-08 15:13 – 15:14 | r941 – r943 | |
顯示 diff(84 行未修改)
|
||
| 2016-01-08 07:16 – 07:17 | r874 – r940 | |
顯示 diff(77 行未修改)
[Kiang版] 資料都放在 ~/jrf/cache/2008/01/01/
- 打
+ 打包
+ *cd ~/jrf/cache/
+ *tar zfc data-2008.tar.gz 2008/
+
+ 打包後,請上傳到 Github 或 Dropbox 再分享連結。謝謝!
|
||
| 2016-01-08 07:16 | r873 | |
顯示 diff(80 行未修改)
|
||
| 2016-01-08 07:14 – 07:16 | r824 – r872 | |
顯示 diff(72 行未修改)
*
+ 打包
+ *cd ~/jrf_data/data
+ *tar zfc data-2010.tar.gz judgemets/
- [
+ [Kiang版] 資料都放在 ~/jrf/cache/2008/01/01/
+ 打
|
||
| 2016-01-08 07:14 | r823 | |
顯示 diff(76 行未修改)
|
||
| 2016-01-08 06:16 – 07:14 | r512 – r822 | |
顯示 diff jrf_data
+ 本頁請關掉 Privacy Badger 不然附圖會看不到哦!
+ 沒聽過 Privacy Badger 的話,推薦參考 https://chrome.google.com/webstore/detail/privacy-badger/pkehgijcmpdhfbdbbnkijodmdjhbjlgp?hl=zh-TW 這是 EFF 推出的增加瀏覽隱私的套件,歡迎使用!
*工作表
(14 行未修改)
*apt-get update
*apt-get dist-upgrade -y
- *apt-get install screen ruby ruby-dev ruby-mechanize
*apt-get install tor tor-arm
*cd
(7 行未修改)
*/etc/init.d/tor restart
*sudo -u debian-tor arm
- 按 Ctrl-A Ctrl-C 開新視窗,在第 1 個視窗打以下指令:
+ 按 Ctrl-A Ctrl-C 開新視窗,就可以開始抓判決書。
+
+
+ Ruby (雨蒼版)
+ 在第 1 個視窗打以下指令:
+ *apt-get install screen ruby ruby-dev ruby-mechanize
*wget https://github.com/miaoski/jrf-data-2010/raw/master/jrf_data.tar.gz
*tar zfx jrf_data.tar.gz
(2 行未修改)
看到這樣的畫面,就是有開始抓了
+ *
- 然後確認一下 tor 的流量不要爆 quota ...
+ PHP (Kiang 版)
+ 在第1個視窗打以下指令:
+ *apt-get install php5-cli php5-curl
+ *mkdir ~/jrf
+ *cd ~/jrf
+ *wget https://raw.githubusercontent.com/miaoski/jrf-data-2010/master/get_judgements_cache.php
+ *wget https://raw.githubusercontent.com/kiang/jrf_data/master/courts.json
- 爬完之後的上傳
- 資
+ 執行:
+ *php get_judgements_cache.php 2008 ← 這個就是你要抓的年份了
+ 看到這樣的畫面,就是有開始抓了
+ *
+
+
+ 確認 Tor 的流量
+ 離開前 Ctrl-A 確 認一下 tor 的流量不要爆 quota ...
+ *
+
+ 嗯,下載 93.4 Kb/sec 應該不會爆一個月 2TB 的限制吧...
+
+ 要離開,直接關掉視窗就可以了,它會在幕後繼續跑。下次再 ssh / putty 上來,打 screen -d -r 就可以接回關掉的視窗。
+
+
+ 爬*完之後的上傳
+ 資[雨蒼版] 料都放在 ~/jrf_data/data/judgemets/
+
+ *
+
+ [
|
||
| 2016-01-08 06:16 | r511 | |
顯示 diff(44 行未修改)
|
||
| 2016-01-08 06:14 – 06:16 | r458 – r510 | |
顯示 diff(5 行未修改)
*
- *Tor
+ *Tor Client
由於 DigitalOcean 不反對使用 Tor, 我們可以參考 https://gist.github.com/pdp7/138768f9279740096fe8 的做法,先架設 Tor Service 。以下是 step-by-step 照著做就可以了。
*先申請 Digital Ocean 帳號。
(25 行未修改)
*./run.sh 2009 ← 這個就是你要抓的年份了
- 爬
+ 看到這樣的畫面,就是有開始抓了
+
+ 然後確認一下 tor 的流量不要爆 quota ...
+
+
+ 爬完之後的上傳
+ 資
|
||
| 2016-01-08 06:14 | r457 | |
顯示 diff(38 行未修改)
|
||
| 2016-01-08 06:13 – 06:14 | r434 – r456 | |
顯示 diff(31 行未修改)
按 Ctrl-A Ctrl-C 開新視窗,在第 1 個視窗打以下指令:
*wget https://github.com/miaoski/jrf-data-2010/raw/master/jrf_data.tar.gz
- tar zfx jrf_data.tar.gz
+ *tar zfx jrf_data.tar.gz
+ *cd jrf_data
+ *./run.sh 2009 ← 這個就是你要抓的年份了
+
+ 爬
|
||
| 2016-01-08 06:13 | r433 | |
顯示 diff(34 行未修改)
|
||
| 2016-01-08 06:13 – 06:13 | r431 – r432 | |
顯示 diff(30 行未修改)
*sudo -u debian-tor arm
按 Ctrl-A Ctrl-C 開新視窗,在第 1 個視窗打以下指令:
- wget https://github.com/miaoski/jrf-data-2010/raw/master/jrf_data.tar.gz
+ *wget https://github.com/miaoski/jrf-data-2010/raw/master/jrf_data.tar.gz
+ tar zfx jrf_data.tar.gz
|
||
| 2016-01-08 06:13 | r430 | |
顯示 diff(33 行未修改)
|
||
| 2016-01-08 05:59 – 06:13 | r426 – r429 | |
顯示 diff(29 行未修改)
*/etc/init.d/tor restart
*sudo -u debian-tor arm
+ 按 Ctrl-A Ctrl-C 開新視窗,在第 1 個視窗打以下指令:
+ wget https://github.com/miaoski/jrf-data-2010/raw/master/jrf_data.tar.gz
|
||
| 2016-01-08 05:59 | r425 | |
顯示 diff(31 行未修改)
|
||
| 2016-01-08 05:59 – 05:59 | r420 – r424 | |
顯示 diff(27 行未修改)
在第 0 個視窗打以下指令:
- /etc/init.d/tor restart
- sudo -u debian-tor arm
+ */etc/init.d/tor restart
+ *sudo -u debian-tor arm
|
||
| 2016-01-08 05:59 | r419 | |
顯示 diff(31 行未修改)
|
||
| 2016-01-08 05:56 – 05:59 | r408 – r418 | |
顯示 diff(19 行未修改)
*apt-get install screen ruby ruby-dev ruby-mechanize
*apt-get install tor tor-arm
- *screen
+ *cd
+ *wget https://gist.githubusercontent.com/miaoski/bf5afdada7bb4c00f873/raw/441009fb02dd4548c136d88b480097d9f010d39a/.screenrc
+ *screen
建議使用 screen ,一個螢幕看 Tor 的使用量,一個螢幕抓判決,就算斷線也沒關係。
重新連上的時候 screen -d -r 就可以恢復原先的 session 了。
+
+ 在第 0 個視窗打以下指令:
+ /etc/init.d/tor restart
+ sudo -u debian-tor arm
|
||
| 2016-01-08 05:56 | r407 | |
顯示 diff(25 行未修改)
|
||
| 2016-01-08 05:55 – 05:56 | r394 – r406 | |
顯示 diff(15 行未修改)
*Choose a droplet name : 取一個自己懂的名字,像這樣*
*開好後, Mac 下請用 ssh 登入,Windows 下可以用 putty 登入主機,開始打一堆指令...orz
- * apt-get update
- * apt-get dist-upgrade -y
- * apt-get install screen ruby ruby-dev ruby-mechanize
- * apt-get install tor tor-arm
- * cp /etc/tor/torrc /etc/tor/torrc.orig
- * curl https://gist.githubusercontent.com/pdp7/9697b1196c63e0f32c57/raw/2b5ce632b002e8283ac522c28d945c1514a09e9f/torrc -o /etc/tor/torrc
- *
+ *apt-get update
+ *apt-get dist-upgrade -y
+ *apt-get install screen ruby ruby-dev ruby-mechanize
+ *apt-get install tor tor-arm
+ *screen
+
+ 建議使用 screen ,一個螢幕看 Tor 的使用量,一個螢幕抓判決,就算斷線也沒關係。
+ 重新連上的時候 screen -d -r 就可以恢復原先的 session 了。
|
||
| 2016-01-08 05:54 – 05:54 | r390 – r393 | |
顯示 diff(24 行未修改)
|
||
| 2016-01-08 05:51 – 05:52 | r385 – r389 | |
顯示 diff(19 行未修改)
* apt-get install screen ruby ruby-dev ruby-mechanize
* apt-get install tor tor-arm
+ * cp /etc/tor/torrc /etc/tor/torrc.orig
+ * curl https://gist.githubusercontent.com/pdp7/9697b1196c63e0f32c57/raw/2b5ce632b002e8283ac522c28d945c1514a09e9f/torrc -o /etc/tor/torrc
*
|
||
| 2016-01-08 05:51 | r384 | |
顯示 diff(22 行未修改)
|
||
| 2016-01-08 05:51 – 05:51 | r382 – r383 | |
顯示 diff(18 行未修改)
* apt-get dist-upgrade -y
* apt-get install screen ruby ruby-dev ruby-mechanize
+ * apt-get install tor tor-arm
*
|
||
| 2016-01-08 05:50 | r381 | |
顯示 diff(21 行未修改)
|
||
| 2016-01-08 05:49 – 05:50 | r363 – r380 | |
顯示 diff(15 行未修改)
*Choose a droplet name : 取一個自己懂的名字,像這樣*
*開好後, Mac 下請用 ssh 登入,Windows 下可以用 putty 登入主機,開始打一堆指令...orz
+ * apt-get update
+ * apt-get dist-upgrade -y
+ * apt-get install screen ruby ruby-dev ruby-mechanize
*
|
||
| 2016-01-08 05:49 | r362 | |
顯示 diff(18 行未修改)
|
||
| 2016-01-08 05:43 – 05:49 | r324 – r361 | |
顯示 diff(14 行未修改)
*Add SSH Key : 請看網路上的教學文...
*Choose a droplet name : 取一個自己懂的名字,像這樣*
- 8
+ *開好後, Mac 下請用 ssh 登入,Windows 下可以用 putty 登入主機,開始打一堆指令...orz
+ *
|
||
| 2016-01-08 05:43 | r323 | |
顯示 diff(17 行未修改)
|
||
| 2016-01-08 05:39 – 05:43 | r240 – r322 | |
顯示 diff(9 行未修改)
*先申請 Digital Ocean 帳號。
*Create Droplet*
- 3.
+ *Distribution : Ubuntu 14.04.3 x64 預設的
+ *Size : $10/mo 預設的 ← 表示你用滿一個月的話,要付 US$10
+ *Data center region : 都可以,但西岸的網路比較快,我選 San Francisco
+ *Add SSH Key : 請看網路上的教學文...
+ *Choose a droplet name : 取一個自己懂的名字,像這樣*
+ 8
|
||
| 2016-01-08 05:39 | r239 | |
顯示 diff(12 行未修改)
|
||
| 2016-01-08 05:39 – 05:39 | r203 – r238 | |
顯示 diff(8 行未修改)
由於 DigitalOcean 不反對使用 Tor, 我們可以參考 https://gist.github.com/pdp7/138768f9279740096fe8 的做法,先架設 Tor Service 。以下是 step-by-step 照著做就可以了。
*先申請 Digital Ocean 帳號。
- *Create Droplet
- *
- 3
+ *Create Droplet*
+ 3.
|
||
| 2016-01-08 05:39 | r202 | |
顯示 diff(13 行未修改)
|
||
| 2016-01-08 05:38 – 05:39 | r196 – r201 | |
顯示 diff(9 行未修改)
*先申請 Digital Ocean 帳號。
*Create Droplet
- *
*
+ 3
|
||
| 2016-01-08 05:38 | r195 | |
顯示 diff(13 行未修改)
|
||
| 2016-01-08 05:24 – 05:38 | r55 – r194 | |
顯示 diff jrf_data
+
*工作表
+ 請先填寫本表,再開始爬資料,謝謝!
+
*
- V
+ *Tor
+ 由於 DigitalOcean 不反對使用 Tor, 我們可以參考 https://gist.github.com/pdp7/138768f9279740096fe8 的做法,先架設 Tor Service 。以下是 step-by-step 照著做就可以了。
+ *先申請 Digital Ocean 帳號。
+ *Create Droplet
+ *
+ *
|
||
| 2016-01-08 05:24 | r54 | |
顯示 diff(5 行未修改)
|
||
| 2016-01-08 05:22 – 05:24 | r13 – r53 | |
顯示 diff jrf_data
- 工
+ *工作表
+ *
+
+ V
|
||
| 2016-01-08 05:22 | r12 | |
顯示 diff(2 行未修改)
|
||
| 2016-01-08 05:22 – 05:22 | r9 – r11 | |
顯示 diff- j
+ jrf_data
+ 工
|
||
| 2016-01-08 05:22 | r8 | |
顯示 diff(1 行未修改)
|
||
| 2016-01-08 05:20 – 05:22 | r1 – r7 | |
顯示 diff- Untitled
-
- This pad text is synchronized as you type, so that everyone viewing this page sees the same text. This allows you to collaborate seamlessly on documents!
+ j
|
||
| 2016-01-08 05:20 | r0 | |
顯示 diff+ Untitled
+ This pad text is synchronized as you type, so that everyone viewing this page sees the same text. This allows you to collaborate seamlessly on documents!
|
||