透析貪污判決--揭露與查詢網站
最新內容請至 hackmd
https://g0v.hackmd.io/T-S5xZOVSIWdv45noYmsUA
(暫名,尚缺副標)
The Disclosure of Corruption Judgement, the Web
可能網址:blackmoney.g0v.tw 歡迎各種建議
POREN:uncover.g0v.tw 之類的,感覺很有特務風XD
緣起
- 貪污是個表面上看起來沒什麼,實際上會對社會造成侵蝕的嚴重病灶
- 有些人會講「水至清則無魚」、「無能比貪污更要不得」,但通常例子是官員收錢所以開始選擇性做事,有益人民的事情不作為,變成「無能」
- 貪污是個表面上看起來沒什麼,實際上會對社會造成侵蝕的嚴重病灶
- 然後發現判決書落落長,動輒數百頁,如果可以用簡單方式呈現那不就太好了嗎!
目標
- 一個查詢貪污與判決結果的查詢網站
- 不搞法理解釋、不提論述心證(也許是第三步以後的事),用簡單幾個欄位呈現判決結果,告訴你「某某某當年就有貪污案底」
一般民眾在意的點:
- 金額大的案子
- 牽涉政治人物的案子
- 跟企業財團有關的案子
與金權政治相關的法律刑責:1.貪污 2.賄選 3.公務員財產不明 4.公務員登錄不實 5.公務員洩密
預設欄位
由於一個案件通常會有複數被告,因此抽取案件資料傾向於以人作為抽取重點,這裡我的想法是一個判決書以兩段資料呈現:第一段是判決書的欄位,一份判決書一筆;第二段是被告的欄位,每個被告都有自己的欄位,故筆數取決於被告人數
以下是我想到覺得重要的欄位,歡迎各種建議
預定使用的資料庫:MySQL => 因為預定會使用到不只一個欄位的搜尋,資料庫的table可以直接用下面兩個資料表來製作,並把地址欄位加進去。
第一段:判決書部份
*
*資料ID暫時用檔名
第一段的部份除了「案件標的」、「法官」外,其他欄位已擷取:
第二段:被告部份
*
工人智慧/範例:
- 姓名:林益世
- 工作/職位/關係:立法委員, 中國國民黨之中央政策委員會執行長
- 罪名:恐嚇得利罪, 公務員財產不明罪
- 有期徒刑:88月
- 易科罰金:FALSE
- 緩刑:0年
- 涉貪金額:63000000
- -
- 姓名:沈若蘭
- 工作/職位/關係:林益世之母
- 罪名:無罪
- -
- 姓名:彭愛佳
- 工作/職位/關係:林益世之配偶
- 罪名:無罪
- -
- 姓名:沈煥章
- 工作/職位/關係:沈若蘭之弟
- 罪名:無罪
- -
- 姓名:沈煥瑶
- 工作/職位/關係:沈若蘭之弟
- 罪名:無罪
專案各階段
第零階段 爬貪污判決書(已完成)
2014-8
利用iMacros從法律法源網爬所有案由為貪污的判決書(csv檔),地方、高等、最高三審級皆以爬完。法律法源網的更新頻率沒有司法院資料庫高,但是他的搜索系統比較完整好用。
判決書Data package . csv:
- 解壓縮以後共2X個資料夾,H開頭為高等法院;L為地方
- ex HKaohsiung高雄高等分院;LTaipei台北地方法院
待解問題:
民國100年以前絕大部分判決書,被告姓名與公司都被遮蓋起來,無法得知。據說司法院內部帳號可以看沒被遮蓋起來的版本。
11-28有寄信過去,不過還沒有回應:1208回應了,除了國家級研究案(如中研院申請),其他不予開放
第一階段 資料梳理、填充欄位(進行中)
由於發現到的遮蓋問題,決定先縮小處理範圍當作嘗試。民100-102年的判決書除了少數重審的案件外,其他都沒有匿名;而地院的內容相對單純,於是把他拉出來單獨打包:
- - 將所有地院判決【判決日期100-102年】丟到同一資料夾的版本
判決書為了可讀性、整齊等等因素,會斷行。在資料處理上變得麻煩。
嘗試作了脫斷行符號的處理,另外判決書內含表格,決定先不動他:
判決書欄位(第一段)的部份,欄位為(檔名/字號/時間/法院/檢察官起訴案由/被告名單),還有一些地方需要修。11-11 怒修,應該沒什麼大問題了(有四個案件沒抓到被告,但那四件都是很神奇的案子,判決結果都不受理,暫時放著):
欄位由左至右(檔名/字號/日期/法院/檢察官起訴案由/被告數/被告名單)
判決書欄位(第二段)的部份,11-28 抓了絕大部分被告的主罪,手動將判決書格式正規化,有些被告公司與代理人的部份沒處理好,有些代理人非被告,故主文不會將之列入(但有些會,判決書在這塊寫得很凌亂,還要想一下如何抽取)
12-08抓了有罪被告的宣告刑,欄位(檔名/被告/罪名/徒刑/是否易科罰金/罰金/緩刑)->(連結)
查詢g0v資料中心,發現有歷屆公職選舉資料(包含政黨屬性):
http://data.g0v.tw/dataset/92/resource/f52cb013-1a1c-467b-8a8c-0bef20d55936
也許這是查詢政黨屬性的起步
Big Issue
遇上一個大麻煩,有一部份主文在寫被告罪刑時,用附表呈現的方式(也就是在書尾的地方寫一個表格列出),舉例:
- 郭美瑩,犯如附表三編號至編號所示之罪,主文及宣告刑各如附表三編號至編號所載。
- (節錄列表)
- ┌─┬────┬─────────────────────────────┐
- │編│犯罪事實│主文及宣告刑 │
- │號│ │ │
- ├─┼────┼─────────────────────────────┤
- ││如附表一│郭美瑩共同連續犯行使偽造公文書罪,處有期徒刑壹年貳月;減為│
- │ │編號1 至│有期徒刑柒月。如附表二編號1 至編號5 所示之偽造印文、署押,│
- │ │5 所示 │及扣案之手機壹支(含電池壹個、SIM 卡壹張),均沒收。 │
- ├─┼────┼─────────────────────────────┤
有沒有大大有好想法處理這段?
表格結構化?
由於在下不是資工相關科系出身,誠徵對判決書有興趣的高手助陣
各路大神提供的Approach:
1.regular expression & pattern(目前作法)
2.machine learning
第二階段 網站上線
部份資料處理好之後,就可以開始想查詢網站的問題。
相對一般會google的問題,使用者知道問題但不知道答案;貪污查詢很可能面臨使用者「不知道問題也不知道答案」。
可以跟過去的新聞報導作連結
也可以跟其他專案整合
第三階段 擴充資料範圍
第一階段東西有刻出來的話,那地院就不是問題。接下來就是高等法院、最高法院的判決書處理,這時候就能夠加上案件從地方法院打到最高法院的歷審呈現。也可以爬其他相關的法律判決。
TO-DO list
資料擷取部份
- 抓取被告 工作/職位/關係 欄位--> Keith Ning
- 抓取表格內容補足 宣告刑 欄位
- 抓取法官欄位
- 抓取涉貪金額
- 國字轉數字
- 查詢被告政黨屬性
------
- 處理高院/最高法院判決書
- 製作與線上判決書同步更新的程式
- 增加判決書涵蓋範圍(詐欺/圖利/財產不明/登載不實/背信)
網站製作部份
- 介面/內容規劃
- 前端
- 後端
資料開放部份
- 將100年後少數匿名判決書開放
- 將99年前匿名判決書開放
- 將起訴書開放
目前成果
判決書Data package . csv:
- 解壓縮以後共2X個資料夾,H開頭為高等法院;L為地方
- ex HKaohsiung高雄高等分院;LTaipei台北地方法院
100-102年地方法院判決包7z (1109:把一些當初抓跑掉的判決書補齊)
100-102年地方法院判決包(脫符)7z (ver1129:手動修正跑掉的格式,1216發現做得不太好,很多地方沒脫到...)
- - 將所有地院判決【判決日期100-102年】丟到同一資料夾的版本
判決書欄位(第一段),欄位(檔名/字號/時間/法院/檢察官起訴案由/被告數/被告名單):google試算表
判決書欄位(第二段部份),欄位(檔名/被告/罪名/是否易科罰金/罰金/緩刑):google試算表
(2015-01-31 簡化罪名 and 罰金數字化)
註1:covered指主文中被告匿名,無法確認哪位是哪位
註2:need check目前剩下未列入主文的代理人或公司,還有名字英文三種
原始碼 by 淵智(python2)(過期)
讀取判決書內的表格(python3) by 煒清
https://github.com/superChing/extract_declared_sentence
從判決書拿出字號、日期、案由、被告 by csferng(過期)
https://github.com/csferng/AnalyzeVerdict
中文字大寫轉換(Python 3)
https://github.com/rschiang/py-conv-digit
初版網站@heroku
http://g0v-uncover.herokuapp.com/
需求&其他相關
如果要顯示判決書稀少字
司法院對於非big5編碼的字會用造字的方式處理,並提供下載:
http://www.judicial.gov.tw/download/download01.asp#D01
我自己使用的經驗,確實有些字因此顯示,但還是不全
相關連結
FB貼文:國民黨未來對台灣危害最大的將是朱立倫,他是馬英九加強版。
八卦版文章:中國黨貪污一覽表
研究文獻:中研院政治所吳重禮:Chung-li Wu. Charge Me if You Can: Assessing Political Biases in Votebuying Verdicts in Democratic Taiwan (2000–2010). The China Quarterly, Available on CJO 2012 doi:10.1017/S0305741012000847 中文版:http://newsletter.sinica.edu.tw/file/file/77/7792.pdf
司法院量刑系統--量刑資訊系統將判決書加以「量化」,使用者只要在查詢介面 輸入查詢條件,量刑資訊系統就會將符 合查詢條件的所有類似案件檢索出來, 提供該類似案件的平均刑度、最高刑度、最低刑度及量刑分布全貌圖
http://www.judicial.gov.tw/revolution/judReform06.asp
http://www.judicial.gov.tw/jw9706/pdf/1700-1.pdf
透過判決書萃取出貪污金額需要專業法律人閱讀判決之文意,也就是說,這需要大量的工人智慧,而司法院已經建立一個量刑系統,或許可以嘗試用他們的資料庫取得被告對應貪污金額及刑度的資訊
網站可以參考的數據呈現方式
http://designspiration.net/image/25875462678551/
相關專案
參與活動
1/25(日) 10:00 - 18:00 第零次法律松
當天活動摘要:
- 淵智繼續資料爬梳 , 孟勳 製作網站
- 司改會: 中豪大哥提議了資料分析的建議 ;
- 宜珊律師 & 執秘 林瑋婷給了實務上關於貪汙案件的實況、
- 以及法官量刑尺度的不同 , 是未來司改會關心的爭點之一。
技術端:
- 甯格致 ( Keith Ning ) 關於社會網路分析可以提供協助 ;
- 林鉦育 提供資料分析建議 ;
- 郭俊儀 : 後台協助
- 姜柏任 ( Poren Chiang ) 寫完轉換器
我們歡迎下列各種夥伴:
- 對判決書閱讀熟悉敏銳
- 自然語言處理高手
- 對網站提供內容有想法
- 對貪腐、貪污、官商勾結等相關議題有興趣
↓↓↓
https://www.facebook.com/groups/876229695725086/
歡迎加入討論
Parse資料上線
https://www.parse.com/apps/uncovertw/
建了兩個表,分別是judgment和party。
需要使用api或更新的人請找張淵智XD