館長、練先生、陳先生觀眾分析

最後編輯:2019-07-11 建立:2019-07-11 歷史紀錄

 

ZHEN N線上資料

Why? :為什麼要做這個

  • 張振:
  • 我好奇對於統獨議題兩岸各個不同觀眾群的看法,想要來一篇詳細的分析,讓大家能夠「正確」的認知到自己立場目前在網路上的處境與聲量。
  • 其實從同婚公投就可以認知到,許多人對於自己到底有多少聲量有著明顯的誤差,更不用說我們身處中國民國自由台灣地區對於中華民國大陸淪陷重災區的認知偏差了。
  • 這次的事件題材對於這個分析其實十分完美,地區(國家)有台灣、對岸、香港,立場有統、台獨、港獨,場域有FB、YT、微博、B站、PTT、DCard、噗浪,各方立場都有代表人物(而且都有引起大量話題,而非只有覺青),更重要的是,這是一個千載難逢的機會。
    • 所以我想要分析:
      • 熱門留言者的詞彙、留言者的背景、留言者的留言場域之間的重疊程度
      • 用論文( 或新聞稿 ) 的方式得出結論,例如:受中國政府控制嚴重的微博,聲勢非常統一...仍有支持反送中的人使用「XX」之類的詞彙
      • 能夠將程式碼開源在GitHub,方便大家將模板套用,統計其他議題。
        • -->延伸:作出統計網站,專門Show該模板所製成的統計。
        • -->延伸2:做出簡易的介面,讓使用者抓取自己想抓的關鍵字,目前這樣的功能都需要付費。

 

How? :打算怎麼做,授權方式

  • 張振:
    • Step.1:
      • 使用Python BeautifulSoup在各大論壇搜尋關鍵字,爬取熱門留言。
    • Step.2:
      • 使用結巴中文從熱門留言取得字詞並儲存成CSV。
    • Step.3;
      • 用人工的方式弄到Google Sheet ( 因為我懶得寫GScript ),由Google Sheet自動統計。
    • Step.4:
      • 得到熱門留言者的詞彙、留言者的背景、留言者的留言場域之間的重疊程度,然後發佈結論。
    • 人工申報:

 

Need?:需要哪些技術

  • 張振:
    • Google Script For Sheet
    • Python BeautifulSoup
    • 結巴中文