挖掘虎嗅网4万篇文章,展现中国互联网江湖

苏格兰折耳喵
2018-03-19

1.jpg

在八月份,笔者曾经写过一篇针对外部数据分析的文章,一部分读者看过此文后,向笔者反映,说对外部数据的分析跳出了原有的只针对企业内部数据分析(用户数据、销售数据、流量数据等)的窠臼,在企业自身数据资源不足或质量不佳的情况下,往往能给产品、运营、营销带来意想不到的启迪,为数据化驱动业务增长打开了一扇窗……

由于笔者所在的新浪微舆情是一家社会化大数据领域的语义分析公司,近期从数据分析岗转到数据产品岗后,不可避免的涉及到许多大数据语义分析的实际应用场景。由此,笔者将工作中的若干心得,以实际案例的形式进行呈现,涉及从数据采集、数据清洗、数据分析再到数据可视化的一整套流程分析,力求条理清晰的展现外部数据分析的强大威力。以下是本文的写作框架:

2.jpg


1. 分析背景

1.1 分析原理:为什么选择分析虎嗅网

在现今数据爆炸、信息质量良莠不齐的互联网时代,我们无时无刻不身处在互联网社会化媒体的“信息洪流”之中,因而无可避免的被它上面泛滥的信息所“裹挟”,也就是说,社会化媒体上的信息对现实世界中的每个人都有重大影响,社会化媒体是我们间接了解现实客观世界和主观世界的一面窗户,我们每时每刻都在受到它的影响。关于“社会化媒体”方面的内容,请参看《干货|如何利用Social Listening从社会化媒体中“提炼”有价值的信息?》,以下内容也摘自该文:

   3.jpg


综合上述两类情形,可以得出这样的结论,透过社会化媒体,我们可以观察现实世界:

由此,社会化媒体是现实主客观世界的一面镜子,而它也会进一步影响人们的行为,如果我们对该领域中的优质媒体所发布的信息进行分析,除了可以了解该领域的发展进程和现状,还可以对该领域的人群行为进行一定程度的预判。

鉴于此种情况,作为互联网从业者的笔者想分析一下互联网行业的一些现状,第一步是找到在互联网界有着重要影响力媒体,上次分析的是“人人的是产品经理”(请参看《 干货|作为一个合格的“增长黑客”,你还得重视外部数据的分析!》),这次笔者想到的是虎嗅网。

虎嗅网创办于2012年5月,是一个聚合优质创新信息与人群的新媒体平台。该平台专注于贡献原创、深度、犀利优质的商业资讯,围绕创新创业的观点进行剖析与交流。虎嗅网的核心,是关注互联网及传统产业的融合、一系列明星公司(包括公众公司与创业型企业)的起落轨迹、产业潮汐的动力与趋势。

因此,对该平台上的发布内容进行分析,对于研究互联网的发展进程和现状有一定的实际价值。

  4.jpg


1.2 本文的分析目的

笔者在本项目中的分析目的主要有4个:

(1)对虎嗅网内容运营方面的若干分析,主要是对发文量、收藏量、评论量等方面的描述性分析;

(2)通过文本分析,对互联网行业的一些人、企业和细分领域进行趣味性的分析;

(3)展现文本挖掘在数据分析领域的实用价值;

(4)将杂芜无序的结构化数据和非结构化数据进行可视化,展现数据之美。

1.3 分析方法:分析工具和分析类型

本文中,笔者使用的数据分析工具如下:

  • Python3.5.2(编程语言)

  • Gensim(词向量、主题模型)

  • Scikit-Learn(聚类和分类)

  • Keras(深度学习框架)

  • Tensorflow(深度学习框架)

  • Jieba(分词和关键词提取)

  • Excel(可视化)

  • Seaborn(可视化)

  • 新浪微舆情(情绪语义分析)

  • Bokeh(可视化)

  • Gephi(网络可视化)

  • Plotly(可视化)

使用上述数据分析工具,笔者将进行2类数据分析:第一类是较为传统的、针对数值型数据的描述下统计分析,如阅读量、收藏量等在时间维度上的分布;另一类是本文的重头戏---深层次的文本挖掘,包括关键词提取、文章内容LDA主题模型分析、词向量/关联词分析、ATM模型、词汇分散图和词聚类分析。

发文数量、评论量和收藏量的变化走势

从下图可以看出,在2012.05~2017.11期间,以季度为单位,主页的发文数量起伏波动不大,在均值1800上下波动,进入2016年后,发文数量有明显提升。

此外,一头(2012年第二季)一尾(2017年第四季)因为没有统计完全,所以发文数量较小。

5.jpg

下图则是该时间段内收藏量和评论量的变化情况,评论量的变化不愠不火,起伏不大,但收藏量一直在攀升中,尤其是在2017年的第二季达到峰值。收藏量在一定程度上反映了文章的干货程度和价值性,读者认为有价值的文章才会去保留和收藏,反复阅读,含英咀华,这说明虎嗅的文章质量在不断提高,或读者的数量在增长。

6.jpg

笔者一直很好奇,文章的评论量、收藏量和标题字数、文章字数是否存在统计学意义上的相关性关系。基于此,笔者绘制出能反映上述变量关系的两张图。

首先,笔者做出了标题字数、文章字数和评论量之间的气泡图(圆形的气泡被六角星替代,但本质上还是气泡图)。

上图中,横轴是文章字数,纵轴是标题字数,评论数大小由六角星的大小和颜色所反映,颜色越暖,数值越大,五角星越大,数值越大。从这张图可以看出,文章评论量较大的文章,绝大部分分布于由文章字数6000字、标题字数20字所构成的区域内。虎嗅网上的商业资讯文章大都具有原创、深度的特点,文章篇幅中长,意味着能把事情背后的来龙去脉论述清楚,而且标题要能够吸引人,引发读者的大量阅读,合适长度标题和正文篇幅才能做到这一点。

接下来,笔者将收藏量、评论量和标题字数、文章字数绘制成一张3D立体图,X轴和Y轴分别为标题字数和正文字数,Z轴为收藏量和评论量所构成的平面,通过旋转这个3维的Surface图,我们可以发现收藏量、评论量和标题字数、文章字数之间的相关关系。

7.jpg

注意,上图的数值表示和前面几张图一样,颜色上的由暖到冷表示数值的由大到小,通过旋转各维度的截面,可以看到在正文字数5000字以内、标题字数15字左右的收藏量和评论量形成的截面出现“华山式”陡峰,因而这里的收藏量和评论量最大。

结语

在本文的文本挖掘部分,其实已经涉及到人工智能/AI这块的实际应用---关键词提取、LDA主题模型、ATM模型属于机器学习,情绪分析、词向量、词聚类和词分类涉及到深度学习方面的知识,这些都是AI 在数据分析中的真实应用场景。

此外,本文是探索性质的数据分析干货文,不是数据分析报告,重在启迪思路,授人以渔,得出具体的结论不是本文的目的,对结果的分析分散在各个部分,“文末结论控”不喜勿喷。



分享