20141108 gxv 拜訪中研院社會所林宗弘副研究員
政商關係專案,預計 20141108 (六) 17:10 拜訪中研院社會所企業資料研究單位,當天為 g0v 年會 (9:00-17:00) Che-wei 已和林宗弘老師及助理聯絡,將會整理數據、並視情況安排會議室,歡迎對公司資料、公司關係、政治獻金、政商關係⋯⋯等主題有興趣的 g0vers 參加。
感謝林宗弘老師的((熱血))介紹。
Todos
- 11/18 (二) 下午三點,於中研院 copy 資料(2995 家企業資料、13 個變量,dta 檔、excel 檔)
- 出席者:chewei
- 本次任務:拿檔案,並請宗弘老師確認流通程度(License)
- chewei> 預計建議:CC BY-NC-SA 4.0 http://creativecommons.org/licenses/by-nc-sa/4.0/
- [授權課題] 釐清徵信資料的授權課題;資料庫比對勘誤成果(?)可公開,並搭配既有的徵信資料授權服務
- chewei 預計整理已被指認的資料集清單與描述及其來源,歸納不同資料集之間 linked 項目,例如「統一編號 id」、「(總經理)姓名」...
- [已招募] 中研院企業與社會研究小組招募全職短期,工作內容為台灣企業數據整理,已招募。若有朋友希望參與,可聯繫洽談以時薪工讀方式參加
- 有興趣的朋友,12/06-07 台灣社會學年會企業 panel 可以認識研究這領域的學者,活動網址: https://sites.google.com/site/2014tsaam/session
關聯專案
本篇文字紀錄出來後,1108 晚間,Torrent 也分享他正在研究的的「企業資料與汙染資料的鏈結」內容與資料課題,汙染廠商之間是否有企業集團關係子孫關係,也是目前需要再釐清的環節,需要較完整的企業關係來作為架構,詳細內容請見:https://g0v.hackpad.com/rInrPBeYd5I
欲參加者請簽到報名
chewei, venev, BP, 張淵智,黃裕盛, Robinn(以下是現場自介重點紀錄,歡迎補完)
- venev:開放政治獻金、關心政商關係
- 張淵智:關鍵數據小組,政治所研究生,主修國內貪腐
- 吳長鋼:關鍵數據小組,林宗弘的經濟系學弟,g0v 蚊子館、貪污搜尋引擎
- superbil:政府公開通訊錄,跟 ronny 一起路過的
- ronny:蒐集資料愛好者,公司資料、公司關係、關貿進出口
- chewei:本次會議主揪
- nchild:你被服貿了嗎、議題解讀懶人包師傅
- BP:影音技術相關、政商關係專案 venev 技術助理
- cicilia:g0v summit 參與者,軟體工程師,自然語言處理工程師(文字理解)
- 珮瑩:外文、社會、歷史,現在在教育系工作,對社會網絡有興趣
- Torrent:Texas A&M University社會所博士生,目前研究台灣高科技產業與污染。目前開設一個 hackpad : 企業資料與汙染資料的鏈結 https://g0v.hackpad.com/rInrPBeYd5I
林宗弘老師介紹目前手頭有的資料
- 2007 中華徵信三百大集團企業(書面資料,無電子檔,用紙本重新輸入),另李宗榮老師則是從訃聞搜尋家族關係(李宗榮老師有電子檔),未來期待親屬網絡與三百大集團合併數據
- 希望讓「有政商關係」的大企業,和沒有政商關係的中小企業作比較
- 去年開始找天下雜誌和中華徵信來談
- 天下雜誌:資料不賣(可能沒整理?)
- 天下雜誌製造業一千大後來變兩千大,任意擴張篩選來源,篩選方式不透明(可能以營收為主),有口徑不一致問題
- 整理出中央研究院「台灣企業排名資料庫」第一版,2995 家企業資料、13 個變量
- 2005 年後更改會計規範要合併報表,之後有數據膨脹問題(必須統計到孫公司的帳務)
- 中華徵信:要求台灣本地員工數;天下雜誌:要求集團總員工數
- 以鴻海為例,是 6800 多人和129萬多人的差異(主要差異在中國)
- 這樣就可以比對本土和海外雇員數
- 這幾年台灣雇用人數都沒動,但海外雇用人數陡峭上升
- 台灣中小企業的平均利潤率開始降低,但大企業波動較小
- 長鋼補充:之前 open data 年會,高有智先生,有報告過如何做出兩千大,是在每年財報出來之後,找大量工讀生來爬財報
宗弘:兩千大有未上市公司,天下雜誌是用傳真機或 e-mail 作業,沒有強制力,所以沒填就沒資料。中華徵信社擁有更完整數據是因為他是徵信社,銀行會跟企業要「徵信證明」,所以資料來源較易和正確性較高
- 1999 年以前,營收超過一億就要公布財報
- 1999 年以後,沒上市就不用公布財報,所以 no data
中華徵信社的資料是用買的,有授權問題
天下雜誌的數據資料是中研院社會所自己工人智慧再整理出來的,應該是可以直接開放授權出來(建議與中研院本所的研究員掛名合作較安全)
牛肉!!!曾進出中華徵信五千大的花名冊 excel 檔,共有九千多家
下一步?
- 上個月跟中華徵信討論,想買三百大集團企業(歷年共五百多個)和一千大台商,可以拼湊兩岸企業版圖,及兩岸政商關係
- 希望要 data 而非查詢權限,但中華徵信不肯,只肯給近三年數據
- 估計明年年底,以中華徵信為樣本來源的東西才會整理完
- 短期之內台灣應該不會有其他機構做得出來
- 初步判斷以有條件公開的方式,來避免可能的授權糾紛,例如相關作品要跟中研院研究員共同掛名,再利用上比較安全。總之目前需要持續釐清法律細節。
討論
工讀生做的東西可以用 crowd sourcing 方式加快速度嗎?
- 林:檢誤問題,傾向用六七個工讀生、兩三個月輸入完畢,兩三個工讀生配合研究助理繼續檢查錯誤
台灣前一千大企業佔七成經濟活動(年底可運用資產、全年營收),但雇員只佔全台勞工的三成
集團關係是用法人關係?
- 因為董監事是公司登記資料必須強制登記的,持股必須是
可以先做做看天下版的一千大數據:下週跟林老師聯繫拿 excel 檔
中華徵信的五千大版,可能要再等
會希望能把海外台商數據也納進來
- 例如服貿協議的爭議,若是沒有數據什麼屁都講不出來
- 跟某國貿易額多大 -> 經濟成長會多少
- 如果真的放任台商企業出去投資,實際台灣就業減少 <- 目前做出來是這樣的預估
訃聞數據庫?答案是沒有
- 親屬網絡數據與細節要找李宗榮老師
- 估計要一年半~兩年,才能把親屬網絡和商業關係接起來
- 用台灣十三分報紙數據庫爬出來的
能否讓中研院買來的數據,經整理補缺之後,以 open source 方式釋出
- 有法律上的顧慮,如何解決(問 isabel? ;當日 summit 晚宴有初步請教林誠夏研究員,日後可持續聯繫釐清)
- BP:中研院護城河概念:把中研院獨立 effort 的東西以 patch 形式開源釋出;由民間公司買一年查詢權限,加入中研院的 patch,作後續應用
- 孝先:可以回去查一下,中研院對數據的改善,是否構成編輯著作,取得相關權利
另一條途徑:許多企業資料的欄位,除了天下雜誌的單方面詢問企業、徵信業者的徵信資料外,是否政府手上有更直接的資料集,或可回推的數據項目?可以敦促他們 open data
- 工商普查、國稅局(稅後淨益)
- 勞動部、健保局會有所有員工數
- ronnywang 觀察到規定僱用身障者的法令、比例與裁罰的內容細節,亦可回推該企業的勞動數據
unconf 的時候,偉宸(?) 補充銀行的聯盟會員有建構一個資料庫,可以查詢個別企業什麼,(糟糕我忘了細節XD",待補)
認為台灣政府、經濟所應該都沒有這樣的資料
談台灣經濟前途,ECFA、服貿利大於弊,但沒有實證資料在手上,很難信服
韓國研究者已經把財團企業商版圖做出來了,還把研究做到台灣來,比對台韓之間大企業所佔的比例,竟發現韓國中小企業比例其實比台灣更高、扮演更大的經濟角色 (此為大意解釋,詳細名詞描述方式待補)
GDP 灌水失真問題
- 服務業出口近幾年增長很快,但懷疑是灌水作帳用,例如鴻海賣顧問服務 -> 富士康,成為應付帳款,降低中國的加值稅
- 在台灣分紅可以逃過中國的稅(但大批現金股利是如何匯入的)
- 外資法人未必要買中國子公司,可能會在台灣買股票、拿現金股利
- 生產端作帳部分比較容易理解,因為只有四門;但消費面到底記入哪裡?估計是「服務業輸出」,
- (台灣企業在中國製造方面的收入)推測估計讓 GDP 虛胖 2%,所以 GDP 若小於 2 很可能是負成長
- 服貿的減稅就會減在服務業出口的科目下,這項應收帳款匯入時就不用收稅
- 兩岸租稅協議還沒有簽,財政部很想簽,甚至中國的稅務部門也想簽,把台、中應收稅款分清楚,但台商都很抗拒
- 數據品質:財政部數據比較好,經濟部數據比較差
nchild 談昨天參加開放資料法制討論
- 目前政府對於開放資料有興趣作
- 韓國有開放資料專法,若剛才韓國的商業版圖研究,是來自政府資料公開,把這個 case 搬回台灣,在政府改造上就有施力點
- 你被服貿了嗎?的使用者觀察,大家在搜不只在搜自己的行業,也會搜其他大集團的企業,但不清楚個別公司名。所以或許有個 catalog,就有無限應用空間
企業分家如華碩、和碩,資料上如何處理?
- 存續公司,以統一編號來判斷,例如東森電視轉手歷程,但這樣的轉手歷程需要人類用智慧去梳理研究,無法單就資料來理解
- 若把三百大集團企業併進來
對政商關係有興趣,國營事業轉民營.....、當退休酬庸,
- 目前的研究現況,研究者多半都是針對個別產業、機構來研究
- 政大鄭力軒:研究中船 -> 台船民營化,變成退休將領
- 熊瑞梅:半導體業
- 中華五千大含國營事業,甚至連尚未公司化的單位例如林務局、郵局都有統計;天下基本只做私營企業
五千大公司?五千大企業?
- 公司,看統編 ID,但也包含郵局、林務局
- 推測:用營業額主導「企業大小」的判斷
未上市公司佔 dataset 的多少?上市 23%,七成多未上市
人工智慧 vs. 工人智慧
- 三千大企業屬於哪些集團,可否用人工方式處理
- 借助人類 google,理解跟判斷的能力
- 分產業、找人工來判斷 -> task 如何能切到夠小作 crowd sourcing,太大包會很難找志願者
- 老師:我是可以付得出 pay!!! 如果發現有電腦無法解決、需要智能判斷的部分,可以來找我,也可以給他訓練或參與感(企業與社會小組 10~15 萬 / 年可支用範圍,可以花錢辦一場研討會把它吃掉 XD,但也可以發給工讀生建資料庫)
----以下為行前準備----
預計交流
- 想了解如何調閱企業轉投資的情況(特別是房地產)與詳細借貸情形、官員民代之投資資料、各企業和官員民代之名下房地產資料
- 據說中研院有 1930 年代以來台灣報紙(訃聞)資料庫,能否分享資料?
- 財團與地方政治的互動關係?
- 政商關係的中國因素
- 了解中研院企業資料與數據的內容、架構、格式 ...等
- 討論中研院資料的 Licenses 課題
- 開放討論未來合作可能
介紹本政商關係專案,預計涵蓋的[電子資料庫]、[文本]、[工具]:
- 電子資料庫(監察院、司法院、行政院)
- 陽光法案主題網:申報資料查詢(監察院),包含
- 公職人員財產申報(g0v repo)
- 政治獻金收支結算 / 開放政治獻金資料庫
- 近五年廉政專刊電子書
- 以上需備份,避免五年時效經過後被選擇性移除,例如連戰財產申報紀錄,官方載點於 2014/9 已失效
- 透析貪污判決--揭露與查詢網站 (司法院)
- 財團 / 社團法人檢索(kiang++)/ github repo / 法人及夫妻財產登記公告 (司法院) / github repo for data
- 公司登記資料 (行政院 經濟部)
- 政府採購網資料(行政院 公共工程委員會)
- 公開資訊觀測站 (行政院 臺灣證券交易所)公司全名整合上市櫃股票代碼, 8 月萌典松: moed5ct (含直播及文字轉播) 併政獻松,被 johnny 和我解開啦挖哈哈 / 以下貼自 政治獻金 / 政商關係搜尋介面 mockup / 公職人員財產申報的股票是登記縮寫 ex: 1314 中石化 ,但政治獻金是登記全名 中國石油化學工業開發股份有限公司 。考慮撈證交所公開資訊觀測站「公司名 / 股號 / 公司名縮寫」對應資料 / Johnny 撈到資料了喔耶!/ excel資料,目前一萬四千筆股票申報可辨別出一萬兩千筆,未辨識出的包含未上市櫃、以及國外的股票,以及一些比較難的,例如:台灣積電=?台積電、台塑化=?台灣塑化、中美晶...等等,可能須手動加入這些俗稱
- 文本(公司出版品、文獻、紅白帖)
- 個別公司所發行年報與公開資料:ex《台灣中油刊物》...
- 公開可搜尋的關係事實與文本:ex《總統的親戚》...
- 聯誼會:老牌三三會、中部磐石會、全國商業總會 ...
- 紅白場,訃聞資料,喜帖 ...
- 工具
- 公司關係圖 / ronnywang github repo / 隱藏版地址檢索功能 /index/search?q=address%3A該地址,使用範例
- 人物關係生產器 / 公眾人物關係圖 / kirby 開發中 / github repo