最新內容請至 hackmd
https://g0v.hackmd.io/T-S5xZOVSIWdv45noYmsUA
(暫名,尚缺副標)
The Disclosure of Corruption Judgement, the Web
可能網址:blackmoney.g0v.tw 歡迎各種建議
POREN:uncover.g0v.tw 之類的,感覺很有特務風XD
一般民眾在意的點:
與金權政治相關的法律刑責:1.貪污 2.賄選 3.公務員財產不明 4.公務員登錄不實 5.公務員洩密
由於一個案件通常會有複數被告,因此抽取案件資料傾向於以人作為抽取重點,這裡我的想法是一個判決書以兩段資料呈現:第一段是判決書的欄位,一份判決書一筆;第二段是被告的欄位,每個被告都有自己的欄位,故筆數取決於被告人數
以下是我想到覺得重要的欄位,歡迎各種建議
預定使用的資料庫:MySQL => 因為預定會使用到不只一個欄位的搜尋,資料庫的table可以直接用下面兩個資料表來製作,並把地址欄位加進去。
第一段:判決書部份
欄位 | 進度 |
資料ID* | |
裁判案號 | 100% |
裁判日期 | 100% |
法院別 | 100% |
被告人數 | 95% |
案件標的 | 0% |
法官 | 0% |
*資料ID暫時用檔名
第一段的部份除了「案件標的」、「法官」外,其他欄位已擷取:
第二段:被告部份
欄位名 | 抽取段落 | 進度 |
被告姓名 | 被告 | 95% |
行政區 | 事實 | 0% |
工作/職位/關係 | 事實 | 20% |
罪名 | 主文 附錄 | 70% |
有期徒刑 | 主文 | 80% |
易科罰金 | 主文 | 80% |
緩刑 | 主文 | 80% |
涉貪金額 | 主文 事實 附錄 | 50% |
政黨屬性 | 外部資料查詢 | 0% |
工人智慧/範例:
第零階段 爬貪污判決書(已完成)
2014-8
利用iMacros從法律法源網爬所有案由為貪污的判決書(csv檔),地方、高等、最高三審級皆以爬完。法律法源網的更新頻率沒有司法院資料庫高,但是他的搜索系統比較完整好用。
判決書Data package . csv:
待解問題:
民國100年以前絕大部分判決書,被告姓名與公司都被遮蓋起來,無法得知。據說司法院內部帳號可以看沒被遮蓋起來的版本。
11-28有寄信過去,不過還沒有回應:1208回應了,除了國家級研究案(如中研院申請),其他不予開放
第一階段 資料梳理、填充欄位(進行中)
由於發現到的遮蓋問題,決定先縮小處理範圍當作嘗試。民100-102年的判決書除了少數重審的案件外,其他都沒有匿名;而地院的內容相對單純,於是把他拉出來單獨打包:
判決書為了可讀性、整齊等等因素,會斷行。在資料處理上變得麻煩。
嘗試作了脫斷行符號的處理,另外判決書內含表格,決定先不動他:
判決書欄位(第一段)的部份,欄位為(檔名/字號/時間/法院/檢察官起訴案由/被告名單),還有一些地方需要修。11-11 怒修,應該沒什麼大問題了(有四個案件沒抓到被告,但那四件都是很神奇的案子,判決結果都不受理,暫時放著):
欄位由左至右(檔名/字號/日期/法院/檢察官起訴案由/被告數/被告名單)
判決書欄位(第二段)的部份,11-28 抓了絕大部分被告的主罪,手動將判決書格式正規化,有些被告公司與代理人的部份沒處理好,有些代理人非被告,故主文不會將之列入(但有些會,判決書在這塊寫得很凌亂,還要想一下如何抽取)
12-08抓了有罪被告的宣告刑,欄位(檔名/被告/罪名/徒刑/是否易科罰金/罰金/緩刑)->(連結)
查詢g0v資料中心,發現有歷屆公職選舉資料(包含政黨屬性):
http://data.g0v.tw/dataset/92/resource/f52cb013-1a1c-467b-8a8c-0bef20d55936
也許這是查詢政黨屬性的起步
Big Issue
遇上一個大麻煩,有一部份主文在寫被告罪刑時,用附表呈現的方式(也就是在書尾的地方寫一個表格列出),舉例:
有沒有大大有好想法處理這段?
表格結構化?
由於在下不是資工相關科系出身,誠徵對判決書有興趣的高手助陣
各路大神提供的Approach:
1.regular expression & pattern(目前作法)
2.machine learning
第二階段 網站上線
部份資料處理好之後,就可以開始想查詢網站的問題。
相對一般會google的問題,使用者知道問題但不知道答案;貪污查詢很可能面臨使用者「不知道問題也不知道答案」。
可以跟過去的新聞報導作連結
也可以跟其他專案整合
第三階段 擴充資料範圍
第一階段東西有刻出來的話,那地院就不是問題。接下來就是高等法院、最高法院的判決書處理,這時候就能夠加上案件從地方法院打到最高法院的歷審呈現。也可以爬其他相關的法律判決。
------
判決書Data package . csv:
100-102年地方法院判決包7z (1109:把一些當初抓跑掉的判決書補齊)
100-102年地方法院判決包(脫符)7z (ver1129:手動修正跑掉的格式,1216發現做得不太好,很多地方沒脫到...)
判決書欄位(第一段),欄位(檔名/字號/時間/法院/檢察官起訴案由/被告數/被告名單):google試算表
判決書欄位(第二段部份),欄位(檔名/被告/罪名/是否易科罰金/罰金/緩刑):google試算表
(2015-01-31 簡化罪名 and 罰金數字化)
註1:covered指主文中被告匿名,無法確認哪位是哪位
註2:need check目前剩下未列入主文的代理人或公司,還有名字英文三種
讀取判決書內的表格(python3) by 煒清
https://github.com/superChing/extract_declared_sentence
從判決書拿出字號、日期、案由、被告 by csferng(過期)
https://github.com/csferng/AnalyzeVerdict
中文字大寫轉換(Python 3)
https://github.com/rschiang/py-conv-digit
初版網站@heroku
http://g0v-uncover.herokuapp.com/
司法院對於非big5編碼的字會用造字的方式處理,並提供下載:
http://www.judicial.gov.tw/download/download01.asp#D01
我自己使用的經驗,確實有些字因此顯示,但還是不全
FB貼文:國民黨未來對台灣危害最大的將是朱立倫,他是馬英九加強版。
研究文獻:中研院政治所吳重禮:Chung-li Wu. Charge Me if You Can: Assessing Political Biases in Votebuying Verdicts in Democratic Taiwan (2000–2010). The China Quarterly, Available on CJO 2012 doi:10.1017/S0305741012000847 中文版:http://newsletter.sinica.edu.tw/file/file/77/7792.pdf
司法院量刑系統--量刑資訊系統將判決書加以「量化」,使用者只要在查詢介面 輸入查詢條件,量刑資訊系統就會將符 合查詢條件的所有類似案件檢索出來, 提供該類似案件的平均刑度、最高刑度、最低刑度及量刑分布全貌圖
http://www.judicial.gov.tw/revolution/judReform06.asp
http://www.judicial.gov.tw/jw9706/pdf/1700-1.pdf
透過判決書萃取出貪污金額需要專業法律人閱讀判決之文意,也就是說,這需要大量的工人智慧,而司法院已經建立一個量刑系統,或許可以嘗試用他們的資料庫取得被告對應貪污金額及刑度的資訊
網站可以參考的數據呈現方式
http://designspiration.net/image/25875462678551/
當天活動摘要:
技術端:
我們歡迎下列各種夥伴:
↓↓↓
https://www.facebook.com/groups/876229695725086/
歡迎加入討論
https://www.parse.com/apps/uncovertw/
建了兩個表,分別是judgment和party。
需要使用api或更新的人請找張淵智XD