公務出國報告查詢統計網

最後編輯:2017-05-09 建立:2016-03-12 歷史紀錄

 

    MAO K簡介

丁新一政府的公務出國考察經常被認為是在消化預算[注1]或是出國旅遊[注2],在資源分配上也備受質疑[注3]。本計畫希望能夠整合各公務出國資訊網的資料,使公務出國的狀況能以更直觀方式呈現,也提供更方便的管道查詢報告。

 

[注1]:到2015年底為止的統計,10~12月的出國次數即佔了超過33%,而1~3月僅佔11%多。

[注2]:如各種"傑出人員出國觀摩"。

[注3]:地方政府的公務出國,第一名台北市的次數及超過第二至五名的加總(高雄、台中、新北、屏東)。

 

    丁新一目的

  • 丁新一統合原本分散於中央以及各縣市公務出國資訊網的資料
  • 對考察的主題、前往地區、年份、月份等項目進行統計
  • 結合花費資料
    丁新一電子採購網找過了,用的名稱跟報告名稱大多不同,結合不了
  • 找出剪貼報告
    丁新一想先從對維基百科的抄襲下手,可是不知道要如何比對......
    楊明翰有辦法人工比對採樣知道抄襲的範例嗎?可以嘗試用NLP做判定,但須要先知道特徵
  • 提供更加方便、快速的查詢功能
  • 提供資料接口

 

    丁新一專案目前狀況

丁新一網址:http://catding.twbbs.org/report/index.php

github:https://github.com/catdingding/report

 

待完成計畫

 

    自動分出遊記類

目的:找出遊記類的報告

定義(有待完善):

  • 內容(大多)為觀光,而非公務的報告
  • 內容大多數篇幅為單純描述所見、前往地點
  • 行程時間大多為觀光

 

目前狀況

  • 將向量化的報告內文餵給機器學習框架學習判斷
  • 於http://catding.twbbs.org/report/check/check.html 可檢視判定為遊記類的報告,並回報判定結果是否正確

 

實作細節

  • 將報告轉換為純文字
  • 使用gensim的doc2vec將文本轉換為向量
  • 人工標記小部分遊記、非遊記分類
  • 將遊記類以文本向量為依據,找出各篇距離最近的,加入該分類,重複施行直到幾乎不再成長(群體內互為最接近)。非遊記類因較雜,施行次數較少
  • 將資料餵給keras(後端使用theano)訓練模型
  • 使用模型預測其他偽標記報告

 

實作相關數據

  • doc2vec參數
    • window=5
    • 維度=64
  • 檔案總數:52339
  • 標記數量
    • 遊記:約30
    • 非遊記:約200
  • 訓練數量
    • 遊記:175
    • 非遊記:430
  • keras訓練參數(之後會放到github)

  • keras訓練結果
    • tra_acc=1.0000
    • val_acc: 0.9508

 

實作改進

  • 從最近一筆改為最近n筆,在不會混進不合格的檔案的情況下,增加訓練資料
  • 改變向量化時設定的維度、window、學習度
  • 於學習時納入文章向量外的資料,例如:計畫名稱、報告名稱、主題分類、施政分類、主辦機關等等
  • 標記易混淆的報告,增加其權重

 

    後續影響

目的:整理出國報告後續對政策、法規的影響(基本上需全人工進行)

 

    報告tag

目的:分類報告、讓使用者更明確的知道報告的屬性

方案:

 

    標記優質報告

目的:

 

    抄襲比對

目的:比對出報告中的抄襲部分(目前以抄襲維基百科的部分為目標)

 

預計比對步驟

  1. 找出報告中地點類的詞
  2. 檢查資料庫內有無該條目內文,已有則直接跳到第4步驟
  3. 抓取維基百科的該條目內文,並放進資料庫
  4. 進行比對

 

目前進度

  • .pdf、.doc、.docs、.odt檔的內文提取準備完成
  • 嘗試人工判斷抄襲模式(哪裡抄、抄哪裡、那些詞可以做為索引)

 

遇到的困難

  • 不容易找出相關的條目,且目前使用的斷詞系統在遇到國外地名時常會分錯

 

    標案比對(已放棄)

目的:比對標案名稱與出國計畫名稱,獲取公務出國的標案金額

 

目前進度

  • 相關標案資料抓取完畢
  • 用斷詞系統輔助,進行(粗劣的)比對

 

遇到的困難

  • 有很多的公務出國計畫名稱和標案名稱相差太多,能比對出來的目前不到1成......

 

已完成目標

  • 定時抓取各資訊網的資料(更新速度:2日/次)
  • 查詢、統計(總統計與各年、單位、主題......統計)、圖表生成、報告資料頁面製作完畢
  • 前後端分離(大部分)

 

待解決

    丁新一又爆了QQ
    丁新一2016-11-28更新 終於正常了~
  • 丁新一新竹市的公務出國資訊網格式不同,且僅有部分欄位,尚未整合
  • 出國期間填寫錯亂(放棄處理)
  • 報告頁數填寫錯亂(放棄處理)
  • 主題分類重複(例:教育、教育文化皆為主題分類)(放棄處理)
  • 人員名單未妥善填寫(例:姓名寫"ooo等4人")(放棄處理)
  • 資料庫查詢效能有待提升(地區排行、圖表已解決)

 

    丁新一統計結果

丁新一以下皆統計至2015年底、皆不含新竹市及金門縣

 

  • 一到四季公務出國次數的比例分別約為:11%、24%、31%、33%
  • 最常前往的地區:美國、中國大陸、日本
  • 公務出國次數的逐年變化:到2013年基本上皆逐年上漲,但2014、2015皆略為降低
  • 政府分布:中央佔75%、台北市佔8%、高雄市佔3.4%、台中市佔1.8%
  • 主題分布:前三名為教育文化(含教育)、財政經濟、公共工程

 

    CHIH-CHENG L統計結果 QA

Q: 年份分布那張圖,為何考察次數逐年增長

丁新一A:

 

CHIH-CHENG LQ: 月份分佈,為何12 月到一月會陡降

 

Q: 天數分佈,超過 30 天的行程都在做什麼

丁新一A: 有一部分特別長的,是出國進修。

 

CHIH-CHENG LQ: 單位分佈,台電的是在多什麼

丁新一A: 進修、會議、技術相關占多數

 

CHIH-CHENG LQ: 主題分佈,為何教育主題卻是最多?

丁新一A: 大學佔了約9000筆的公務出國。

 

CHIH-CHENG LQ: 政府分佈,為何台北市比其他市多那麼多

丁新一A:

 

CHIH-CHENG LQ: 月份、天數、單位、主題、政府分佈,是否隨年份有任何變化或趨勢?

丁新一A:

  • 月份:看不出來
  • 天數:略降(不明顯)
  • 主題:2005財政最多=>2010、2015教育都最多
  • 政府:大多都持續增長,少部分持平

 

    丁新一實作細節

 

丁新一前端

  • 使用jQuery

 

後端

  • 採用php+mysql
  • 使用curl抓取資料
  • 用PDO連接資料庫
    kiang也許可以在匯入資料庫同時產出一份 json 格式放進 github 公開?方便大家混搭使用 ;)
    kiang可以參考 https://github.com/g0v/foundationtw/blob/master/bin/cron.php 作法
    丁新一感謝建議,目前是打算寫api讓其他使用者拉,預計7月正式推出
    丁新一2016/07/10更新 目前採用的做法是在提供api+提供資料表下載

 

CHIH-CHENG L資料分析

R 套件 https://github.com/ChihChengLiang/abroadplayr

 

    丁新一徵求協作者

丁新一fb社團:https://www.facebook.com/groups/1125748634116081/

  • 介面設計師
  • 前端工程師
  • 後端工程師
  • 文案編寫
  • 有公務出國考察經驗者
  • 任何有興趣的人

 

    丁新一各方資訊

丁新一並非官方提供

小標題=資訊提供者所在單位

 

    審計部

10到12月,除了配合議會跟立院開議時間外,主要可能就是年底消化預算所致。另選舉年出國頻仍,我們同事一致想法應該跟酬庸有關,只是沒有證據

法規規定出國後需要繳交出國報告

但通常虛應了事,有提出即可,沒有要求品質

流程分兩部分

一部分是年度提計畫,然後機關編列預算,但佔少數

大部分是臨時提案提出國計畫,然後用業務費出去。 通常機關首長批可即可

沒有所謂的正式審查機制

 

    新北市政府

我之前做過因公出國的業務

然後都要事先陳報市府人事處去編列預算

也就是要概算的意思 今年提出計畫編後年的預算

那這樣怎麼會知道誰要何時出國啊,都那麼遠

然後通常第一個排序的項目是固定的 是行政考察總之有點籠統 大概就是想要跟議員出國考察所編列的預算 這排在第一位 但不是每年都有實際出國

就是當初在寫計畫的時候要先確定時間與人數

才能根據當地生活水準去編概算

大抵不會超過去年的 如果他是例行性的出國考察

市府如果准 就代表那年有經費用

但是是實報實銷 就是看到最後實際用多少錢

 

    台北市議會

先就我目前觀察到的現象簡單敘述好了

 

如果以台北市議員為例,每人每年有一筆約十萬上下的出國考察費用(地方民意代表費用支給及村里長事務補助費補助條例,各縣市議會編列金額會不同),議員們通常會利用休會期間1-3月、6-8月出國。每年也會有議長團之類的整批一起出去,為自由參加,地點也沒有固定,也非真的為了市政進行研究或考察而去,就是單純出去玩。自行決定目的地,行前繳交申請表和行程表,再拿相關單據向議會核銷,核銷好像很寬鬆,也沒規定要寫出國報告(之前內政部好像有要求需寫,但也沒執行就是了....)。

 

另外,市政府會在每次市長出國考察時釋出一些名額(以市府公務預算,或議員自費方式支付),數量不一,讓議員跟著出訪考察,超過報名人數就是抽籤決定,行程內容就偏向大家認知上的市政考察,會與出訪城市進行交流,畢竟市長不可能單純出去玩。但對議員來說,多半還是為求媒體曝光,非求知或增進市政知識而去。

 

所以我認為議員出國考察和次年的提案或預算刪減不太有直接關係。

如果台北市算是全台最優良的議會都這樣了,相信對其他縣市議員更無作用了

 

PHATE C(格式有錯請再跟我說)

敝人目前在台北市議會服務,議會對於會內的考察行程衡量相對寬鬆,尤其沒人會願意提案刪除這筆每年固定的"郊遊"費用,以取得考察報告這件事而言:一、皆非議員親自撰寫,二、敝人了解的狀況是每團只交一份。後續有問題我可以再補充。

 

 

    丁新一立法院

公部門人員出國考察都是要編列預算的,因此每年度各機關會依據國際會議、業務計畫等規劃下一年度的出國預算,行政部門大多是行政業務費,民意代表則是國際交流的業務費。

 

因此,就是前一年度規劃出國預算就要提議,行政機關不太會有臨時出國情形,提議權與決定權就是在各機關主管手上,民意機關的話則是給一大筆國際交流費,委員們再去分。因此最終的實質(也可能是形式上)的審議,其實就是預算審查。

 

 

 

AUSTIN W統計資料可以進行的研究(想到什麼就打什麼) 0821

 

  1. 統計有哪些單位沒有提供資料--根據周陽山監委的報告,現在中央都要交,但沒交的情況很普遍。而對於地方來說,則是全面地方自治,雖然有命令沿用,但地方不公開的情況甚為普遍。要促進群眾動員,可以做一個簡單的統計,統計所有沒交的單位,然後就可以做一個簡單的請願網站,按一下就自動寄給選區的議員與立委要求該選區公務員要公開資料或修改法規。
    Austin Wang我有跟周陽山監委寄信要資料,以下是收到的回信,會繼續問下去(97-99的完整版資料)
    Austin Wang宏恩先生:
    Austin Wang謝謝來函。由於我的監委任期已結束,要再向監察院調用資料有困難。你可以寫信給監察
    Austin Wang院司法委員會主祕王增華女士,她是我的博士指導學生,請其協助。具體作法是,寫一正
    Austin Wang式信函給監察院,説明你撰寫論文需要調用原女公調查資料,經過相關單位(應該是內政
    Austin Wang委員會)同意,可以正式取得。由於本案並非機密案,取得應不困難。我個人只保留正式
    Austin Wang的調查報告,原始資料係由調查官保存,完成報告後全宗資料在監察院列檔保留,必須根
    Austin Wang據上述程序取用,用完歸檔。
    Austin Wang祝你順利。並頌
    Austin Wang學安
    Austin Wang周陽山謹覆
  1. 另一方面,也可以用統計分析,觀察公開跟不公開的縣市村里間是否有顯著差別,例如假如發現赤字越高的縣市公開率越低,那就可以寫新聞稿了。可以用Zero inflation 迴歸or Decision Tree Analysis
  2. 繼續以公開為自變數,可以研究說公開之後是否該縣市的赤字就開始下降,或者根本沒影響。不過因為有資料短缺,所以在推論上會有內生性與bias(有公開的報告都是還好的,更糟的都不公開),因此可能要先透過propensity matching來解決。
  3. 然後就現有資料的部份,雖然不完整,但可以先跑一些有趣的統計。首先,縣市赤字跟出國人次的關係。法規說每年要通盤檢討嘛,那到底有沒有根據前一年赤字減少出國數呢?這可以跑跨年跨區的時間序列分析,但需要每年度每縣市的數據,尤其要注意五都整併。另外可以跑的東西,就是假如有縣市議員出國資料,就可以看說他們出國後隔年提案數是增加還是減少(增加就是出國考查有學到東西了、減少就是被買通了不要搗亂)
    Chih-Cheng Liang2016-09-11 已從主計處整理縣市財政資料,見 R 套件: https://github.com/ChihChengLiang/abroadplayr
  1. 根據墨西哥的侍從主義研究,招待出國這種事應該有選舉週期,選前跟當選後前金後謝,假如選輸了就沒資源了、政黨輪替或知道選不贏了就會亂花錢等等,所以應該,可以觀察到以四年為單位的週期(事實上,我看苗栗縣就很明顯,每到選舉年出國人就大增),可以更有系統更全面的做。
  2. 其實我看了現在的分佈,中央部會出國在一年內都很平均,而教育單位都是7月最多,這兩者都很合理,而且我詢問的審計部的官員,他們都說出國提案要一到兩年前就提好了,審很嚴,所以不可能積到年底才忽然想出國。相較之下,積到年底才出國最明顯的是縣市議會以及鄉民代表,這很合理,地方議員助理說他們會嚴審地方政府的出國,但不會嚴審自己人的。這也暗示著在統計分析時可以分成中央與地方、民選與非民選來分析。
  3. 最下面的縣市議員跟鄉民代表的規定為何呢?法律有規定每年撥一筆錢,好像是5萬吧,所以理論上民選官員們無論高低階都是每年可以出國,但到底他們要怎麼報帳怎麼請款、鄉民代表層級的又是怎麼做,我還要先去訪談看看
  4. 有縣市議員助理聽到年底出國最多覺得資料是假的,因為他們說年底大家都在審預算超忙,根本沒空出國。倒是有時縣市長出國時手頭會有好幾個名額帶議員去,因為去能曝光,所以議員都會想辦法抽籤擠進去。