館長、練先生、陳先生觀眾分析
線上資料
- 張振:
- FB第一則貼文:
- https://www.facebook.com/groups/g0v.general/permalink/2268142639928796/
- FB第二則貼文:
- 這篇共筆的網址:
- https://g0v.hackpad.tw/NWOQeq3j0pg
Why? :為什麼要做這個
- 張振:
- 我好奇對於統獨議題兩岸各個不同觀眾群的看法,想要來一篇詳細的分析,讓大家能夠「正確」的認知到自己立場目前在網路上的處境與聲量。
- 其實從同婚公投就可以認知到,許多人對於自己到底有多少聲量有著明顯的誤差,更不用說我們身處中國民國自由台灣地區對於中華民國大陸淪陷重災區的認知偏差了。
- 這次的事件題材對於這個分析其實十分完美,地區(國家)有台灣、對岸、香港,立場有統、台獨、港獨,場域有FB、YT、微博、B站、PTT、DCard、噗浪,各方立場都有代表人物(而且都有引起大量話題,而非只有覺青),更重要的是,這是一個千載難逢的機會。
- 所以我想要分析:
- 熱門留言者的詞彙、留言者的背景、留言者的留言場域之間的重疊程度
- 用論文( 或新聞稿 ) 的方式得出結論,例如:受中國政府控制嚴重的微博,聲勢非常統一...仍有支持反送中的人使用「XX」之類的詞彙
- 能夠將程式碼開源在GitHub,方便大家將模板套用,統計其他議題。
- -->延伸:作出統計網站,專門Show該模板所製成的統計。
- -->延伸2:做出簡易的介面,讓使用者抓取自己想抓的關鍵字,目前這樣的功能都需要付費。
How? :打算怎麼做,授權方式
- 張振:
- Step.1:
- 使用Python BeautifulSoup在各大論壇搜尋關鍵字,爬取熱門留言。
- Step.2:
- Step.3;
- 用人工的方式弄到Google Sheet ( 因為我懶得寫GScript ),由Google Sheet自動統計。
- Step.4:
- 得到熱門留言者的詞彙、留言者的背景、留言者的留言場域之間的重疊程度,然後發佈結論。
- 人工申報:
- 在統計期間,如果有人想要自主申報,請填寫以下Google表單:
- https://docs.google.com/forms/d/e/1FAIpQLSfcl_2gJbQ9kPjLteKeIyXX9QK6sO4ejvKz7Ra1A16AKHc--w/viewform
- 在填寫這份問卷之前,你必須先知道:
- 你的回覆是公開的,每一題都是公開的,包含你的電子信箱 ( 因為要上傳證據 )
- 造假所造成的不良後果,會害你要負法律責任
- 每一份回覆至少會有一個人 ( 就是我 ) 會詳細閱讀
- 我已經盡力做到匿名了,如果你有任何建議或謾罵,請寄信至[email protected]
- 下表叫做「留言表」,你可以發現,如果根據背景來把每個人的立場區隔開來,其實非常多元。目前一共有4地區*3立場*3代表人物*6留言場域=216種留言選項,是從Google表單統計出來的。
- https://docs.google.com/spreadsheets/d/18sqG42PdKNSjEcVuxrwvJR7ReGfPtbfUkQjPKxNffJ4/edit
- 不會結束回應時間。
Need?:需要哪些技術
- 張振:
- Google Script For Sheet
- Python BeautifulSoup
- 結巴中文