大數據分析:研究武漢新型肺炎的發展歷程

不懂技術怎么做產品?15天在線學習,補齊產品經理必備技術知識,再也不被開發忽悠。了解一下>

最近武漢發現新型肺炎2019-nCov牽動著大家的心,藥店里的口罩就和酒精也是搶購一空。本文將通過對百度資訊中,以“肺炎”一詞作為關鍵詞,檢索出來所有新聞標題和新聞摘要進行分析,了解新型肺炎相關新聞在互聯網上的傳播情況。

本文使用的工具:

  • 編程:Python;爬蟲:Scrapy;中文分詞:jieba
  • Excel生成圖表、wordclouds生成詞云

數據源:百度資訊、百度指數

1. 新聞采集

通過百度資訊,搜索“肺炎”一詞,將所有搜索結果收集起來,并且對新聞內容進行去重。去重標準是同一天、同一個新聞媒體、同一個標題、同一個摘要時,將重復內容去除。

2. 初步統計

簡單的對12月起,每天肺炎相關新聞的數量用excel進行了簡單的統計。截止到1月23日下午,去重后,共檢索到424條新聞。

近期最早新聞中出現“肺炎”的字眼,是在2019年12月31日,接著逐漸消退,1月3號再次出現一波小熱潮,然后完全消退。

第二波大熱潮是在2020年1月9日左右,但是熱潮很快又退了下去。

直到2020年1月16日,肺炎新聞才開始爆發性增長,然后經歷1月19日的一個小低谷后,熱度迅速上升。大家的感受也應該是在1月20日左右,就發現各種微信群消息里,開始大量的轉發武漢發現新型肺炎相關的消息吧。

通過百度指數搜索全網對“肺炎”這個關鍵詞的搜索熱度,可以看出發展輿論的發展趨勢,基本與新聞的數量一致。

在12月底開始出現肺炎的新聞,過了月20天后,新型肺炎的新聞才“突然間氣勢洶洶”的傳播開來。

3. 熱詞分析

通過對19年12月31日、20年1月9日、20年1月16日這三個比較有標志性的日期,以及20年1月20日往后的每一天,利用NLP(Natural Language Processing,自然語言處理)的工具“jieba”,統計這些日期當天的新聞中,相對于往前日期的新聞內容,出現了哪些新的詞語。

階段1:2019年12月31日,進展:不明原因

可以看出,此時新聞都還集中在武漢,肺炎還是“不明原因”,部分新聞提到了日后出了名的“華南海鮮市場”,“通報、通知、記者”說明,大家對此事還處于一個較為好奇狀態。

階段2:2020年1月3日,進展:事情發酵

新增了“患者”、“病毒性”、“診斷” 這樣的關鍵詞,說明肺炎已經開始產生了危害?!按浴?、“發酵”、“不要”、“相信”這些關鍵詞,說明大家開始產生了恐慌,但是媒體也很理性的讓大家不要驚慌,大家不信謠、不傳謠。

階段3:2020年1月9日,進展:發現病因

“初步判斷”、“新型”、“冠狀病毒”,代表著導致新型肺炎的元兇已經被初步找到。此事過后,肺炎相關新聞就開始減少。

階段4:2020年1月16日,進展:國際事件

我們看到了“日本”、“越南”這樣的國外地名的出現,并且有了“隔離”、“傳人”這樣的詞出現。(其實應該是人傳人,不過被分詞系統分成了兩個詞)

說明了此時肺炎已經“沖出國門,走向國際”,并且引起了國際媒體的注意。但是在國內卻依然還未能引起重視。

階段5:2020年1月20日,進展:事件爆發

1月20號是肺炎新聞大規模出現的標志點,此時我們看到了“北京”、“深圳”等城市的字眼,國內真 · 一線城市開始有確認的病情了!

2020年1月21日至1月23日,進展:持續升級

1月21日:終南山院士回歸,“口罩”的出現,接著引起了藥店、電商網站的各種口罩搶購?!叭?、“首例”、“疑似病例”,說明病情正朝著全國發展。

1月22日:重點是“防控工作”,同時出現了“春節”,春運大潮來臨。

1月23日:“口罩”一詞重新出現!對應的新聞是很多藥店口罩搶購一空,然后有的良性廠家加班生產,而有的黑心店家卻故意哄抬物價!

與此同時,阿里京東的電商平臺通知,禁止商家漲價?!胺槳浮?、“工作委”表明,各地已經開始有了對應肺炎傳播的應對措施,是春節前的大好消息!“首例”表明,肺炎在更多地區被發展,傳播迅猛。

為什么“口罩”、“首例”等關鍵詞重復上榜?

因為我寫的新詞分析算法是,從當天新聞中抽取出熱詞,然后從過去的所有新聞中,再抽取出熱詞。然后對比兩組熱詞,找出新增的詞。

例如“口罩”在短暫的一兩天內可能是熱點,但是相對比其他一些關鍵詞,如“武漢”、“肺炎”等,“口罩”在過去20多天內的影響力就弱的多了,無緣過去新聞的熱詞榜。所以,當口罩又火了的時候,新詞分析就又發現了它。

4. 地區分析

利用前文的方法,我們把熱詞的類型縮小到“地域名詞”,再次查看那些關鍵的時間節點,看看肺炎的地域傳播趨勢。

由于時間倉促,加上用來生成詞云的網站無法訪問了,無法對程序分析地域名詞輸出的結果做過多的深入研究和數據過濾,結果僅供參考。

階段1:2019年12月31日,地區:小范圍影響

此時肺炎的傳播,還局限在武漢的華南海鮮市場。

注意檢索結果有“浙江”,經過分析,是某個媒體在發布新聞后,一直用同一個鏈接更新最新內容。

階段2:2020年1月3日,地區:小范圍影響

此階段并未發現新的地區,說明肺炎還未被發現廣泛傳播。

階段3:2020年1月9日,地區:小范圍影響

此階段出現了兩個新的地名“欽州”、“杭州”,本著認真負責的態度,我去看了一下當時的新聞。

  • 欽州相關:欽州9名新生兒陸續患肺炎,數名寶媽找月子中心討說法;
  • 杭州相關:武漢不明原因肺炎判定為新型冠狀病毒!杭州專家權威解讀。

欽州月子中心的事件,可能剛好是個巧合。所以我認為這個階段,從新聞內容來看,肺炎傳播范圍依然以武漢為主。

階段4:2020年1月16日,地區:亞洲其他國家

越南和日本發現了新型肺炎的疫情。但是此時國內其他地方并未有新型疫情的報道。

階段5:2020年1月20日,地區:國內一線城市

一線城市北上深廣的出現,標志著新型肺炎開始在國內傳播。

2020年1月21日至1月23日,地區:國內大面積蔓延、海外也逐步蔓延

大量的國內外地名出現了新聞內容中,說明新型肺炎蔓延十分的迅速。

5. 總結

通過對“肺炎”相關的關鍵詞進行新聞檢索、數據整理分析,可以有效還原新型肺炎從發現到發展的全流程,并且發現每個階段不同的特征。

最后,放一個產品生命周期的圖,如果把新型肺炎當做一款產品,那么它現在就處在快速的成長期,所以千萬不能掉以輕心,必須加大防護措施,認真嚴肅對待。

時近年關,正值春運高峰期,人流量大,也希望大家出門盡可能戴口罩,多看新聞關心了解新型肺炎的發展態勢,聽從社區、公共場所安排,注意身體健康。

給大家拜個年 :)

 

本文由 @iCheer 原創發布于人人都是產品經理,未經作者許可,禁止轉載。

題圖來自Unsplash,基于CC0協議。

給作者打賞,鼓勵TA抓緊創作!
2人打賞
評論
歡迎留言討論~!
  1. nice中。國 加 油

    回復
  2. 武漢加油,共度時艱。
    ———————–
    學習了熱門事件數據分析的入門法子

    回復