more info: g0v summit 2014 hackfoldr
現場直播網址 (live url) http://youtu.be/xaeplkDyKes
錄影紀錄網址 (video url)
照片紀錄網址 (photos url)
↓文字轉播、線上討論↓
slides url
我們的問題是哪一個疾病最重要?這有很多面向,像花最多錢,住院住最久,重返率最高等。像人均率前三名雖然多,但從圖形上看得出來不會像人數前三名的比例那麼多。數字有了形狀之後就曉得什麼大什麼小了。
過往的使用者拿到資料統計時,通常都過了一個月。要是現在這個介面可以直接連到資料庫,那麼隨時上網看到的都是即時更新的。
只要有這個資料集,就可以切換不同的面向,像17歲以下男性,北京65歲以上男性這幾個,你就可以很快速的做比較。
這是三千多萬比的資料,用這個資料集5 GBytes ,用不同的面向去切換,而且它在瀏覽器的環境端可以做立即性的分析。
自動化,即時化,速度。
新竹車禍事故/死亡分佈:http://muyueh.com/30/xinzhu_traffic/
這是個 Google Map,這個每一個點都是新竹地區發生的車禍,黃色是發生的點,紅色是發生且有人死亡的點,若是比較密集就代表那個地方常發生。這是一月到十月的資料。你可以從資料上看到四月沒人死亡,而九月死得人較多。星期一車禍少一點,星期四死亡的人數較多。0點到8點車禍數量超級少,但車禍死亡很多發生在這兒,所以你要預防車禍死亡就要由這兒著手。若你想只知道早上,下午,或週末的下午,可以用點選做資料集的切換,有個很快的feedback。要是我只想看到某個地區的量,那麼我只要zoom in 就可以看到。其實這是我最希望在這30分鐘內讓大家知道資料視覺化可以解決什麼樣子的問題。
當你在用智慧型手機照相時,其實會留下你照相的時間,經緯度時,像是痞客邦,就會依這個次序去排,像圖上的紅點就是美食紀錄的照片,你可以看到不同月份,星期,小時的分布。比方說你看南港展覽館大家在拍的是哪些,有點像是美食指南。若是切換到攝景寫真,你就可以找到好的外拍地點。你看到南港展覽館這兒有很多點都是在同一次的,那就有可能是某次展覽的 show girl 的照片(笑)
最後要講的是youBike 的分析,想想看,現在Youbike 都是開放的,我們都可以查接下來有沒有車,但等到我們去的時候,這個時間差裡,發生了一些事,可能車就沒了。但我們可以去查Youbike 是不是有一些循環的特性,像是上課時車就被借光,下課車就全回來,我們看到這個就知道週期性還蠻強的。
這個圖看得出來在過去六個月週一到五每天六點很多人借車,兩三個小時後就很多人還車,而週末則是不一樣的情況,包含了大安站,101站,動物園站的情況都有所不同。
去年我找了一個顏色類表在wiki 百科上,還蠻酷的,我把所有的顏色找出來,它有兩維度,可以切換飽和程度,亮度,以及中英文的狀況。(http://muyueh.com/greenhoney/)
或許我們會懷疑自己一直會有更好呈現的方法,我們把顏色的名字分別切開,看看哪個字出現得較多,發現紅,藍,綠最多,但切成英文之後,變成blue,green,pink(比red多)。
可以想一想,資料模式還能套用在什麼情況上。
slides url
參考書目:粉紅色牢房效應(Drunk Tank Pink: And Other Unexpected Forces That Shape How We Think, Feel, and Behave - Adam Alter)、Information is Beautiful (http://www.informationisbeautiful.net/)
資料視覺化正蓬勃發展,可能牽涉到互動式及網路。資料新聞學都會牽涉到程式運算,所以未來應該是統計學者和資訊學者的合)作。
利用媒體版面去操弄資訊(國內,國外)
http://bl.ocks.org/zbryikt/raw/4696905/
Drunk Tank Pink 粉紅色牢房效應
找一群學生來玩大富翁,有一些人贏了,有一些人輸了,再讓他們想想這筆錢可以做什麼。若此時他們手上有錢可以捐,發現有想像和沒想像會有差別。同樣的情況也發生在看到納粹符號與否將會有差別。
有些報紙會有不同的立場,是否我們有權利可以不看不想看的報紙。我們在FB上只要只針對自己喜歡的東西去按讚,那麼最後你就只會看到你想看的東西。
資訊圖表我們可以讓它更互動,敘利亞內戰的死亡人數,還分成大人及小孩,可以依照時間跑,用視覺化的方式去顯示發生的地點及情況。
繫上歷史記憶的黃絲帶,整理白色恐怖史料及林義雄的生平(http://0media.tw/yslin/),我模仿之前的事情,用時間的順序依序在地圖上爆出來。
(談最熟悉的陌生人:里長問題)
獨家 v.s. 開源
新聞報導要有獨家性,但是越早釋出大家越可以改,才有開源的精神。
我們去思考下一個時代的媒體我們要怎麼做,才是媒體該追求的方向。
slides url
專案 hackpad:http://bit.ly/ncc-api
這是鄉民用語,"你媽知道你在。。。"。後來APPLE 就有過這個APP。
現在生活壓力大,想看一些由新聞製造業,所做的娛樂型新聞。想去看哪些新聞頻道有在玩弄是非,希望能做一個平台能夠評分媒體,但又不被外力影響(不致黑箱作業),故要做一個開放性的評分機制。
希望能做出增加說服力,像食品的假油,大家就不會去吃。NCC現在 Open Data 的內容是職員的學歷,性別等統計資料,而不是民眾投訴的內容資料。但是在NCC 網站上並沒有投訴案件的統計數據,要是有,就可以排一個rank,知道哪一個是最假的。
想要實作NCC投訴案件的API。包含投訴,查詢,搜尋,統計等功能。只要把API做好後,就可以給更多開發者做應用。
(OVER MY API BODY !!)
如何去爬NCC 資料並寫到資料庫,開始解釋 CRAWLER 的詳細實作。但NCC 的內容太古老,所以我們沒有辦法理解它的行為,只好用另一種方式。
目前因為沒有read only 的模式,要等到它有了以後,才能夠把整個資料庫提供,避免被惡意的delete 掉。
(繼續說明案件的 API)
目前有爬過的資料約一萬筆,查到中天新聞台有兩千兩百多筆,也可以查此新聞台被抱怨的案件內容。也可以查特定新聞台的什麼類別有多少筆,從這個數量可以看得出該新聞台在哪些類別最常被投訴(例:妨害風俗。。)
這個"你媽知道。。。"字體是我們自己做的,是特別設計的(笑)
目前IOS 和 Android 都有版本,請幫忙給五顆星(大笑)
接下來希望做搜尋可以做到關鍵字(可以回去看如新聞節目上所報),另外可以自動顯示現在有問題的頻道,節目名稱。以及將投訴的功能實作在行動裝置上。將投訴的功能實作在行動裝置上。(可以邊看新聞邊投訴)
目前人力的情況
Crawler 2 Web 2 Android 2 iOS 1
但其實 Crawler Web Android 是同一個人
我們(程式設計師)對每一行程式碼有強烈責任感
媒體亦該為所製播的每一畫面負責
slides url
來談資料分析,要怎麼玩:問問題-收集資料-動手作-回到步驟一
資料來源:經濟商業司、台灣公司關係圖
你可以打個統編,就會跑出一堆公司關係圖,但是因為每次都跑出一大堆,所以就做個整理。主要是針對有董監事的四萬多家公司做分析。但直接畫在圖上眼睛都花了。
若就最大群體分布,會發現它好像是個黑洞,中間的紅點就是它投資比較多的公司。最大的集團可能有一萬多家公司,但第二大的集團卻只有七十幾家。
如何觀察大群體?比一比:(直接投資家數、子孫數、重要性(中間值))
(說明直接投資家數排名的內容,並說明相關歷史背景,內容及背後的原因。可以看到第20名為中央投資,對於這種黨營事業和企業之間的關係提出疑問)
而當我們討論一些政治問題時,有這樣的資料做佐證會有更強的證據。
(再談直接+間接投資的相關概況)
我們希望可以再多更多的分析,可以對資料有更進一步了解。所以我們用社會網路分析的中間度概念來衡量它們的重要性。畫出來的圖大概東西都會連在一起。
這是一個社會結構,要改變它其實是蠻難的,但我們可以先去理解。
那我們去做誰做了最多的董監事,結果出現的卻是菜市場名排行榜(大笑)
因為同名同姓的情況,所以我們改用法人代表的次數去看。就可以看到很多名人,像羅智先,嚴凱泰。
要避免這種同名同姓,從資料上來看,就可以看出跟某人一起當董監事,分屬不同公司的情況,極有可能就是同一個人,這可能排除掉大部分同名同姓的狀況,是一個不錯的filter。
分類的規則:
先列出所有姓名
依法人代表名單進行初步分類
兩不同公司有兩個以上董監事重複,視為同一個人
黨營事業分布
控制權如何量化:持股率,盈餘分配比率,董監事比率。因前兩者我手上沒有資料,所以用第三者來衡量控制權。
使用工具 MongoDB, Python, D3.js