基于数据分析的帕金森用户需求报告

作者分析了帕金森用户关注的需求,主要是用户关注度高、阅读量最高的话题。用户需求报告与您分享,供您参考和学习。

01 背景介绍

由于工作需要,我花了一些时间利用数据分析帕金森病用户(非患者)的需求,并与您分享分析结果。

1.1 分析目标

分析帕金森病用户关注的内容,了解一些内容的重要性。

1.2 研究假设

基于以下假设:

用户的行为反应与其关注的内容密切相关;收集到的数据真实地反映了用户的行为;

1.3 研究方式

通过分析用户之间讨论的话题和用户浏览的信息,了解用户关注的内容。

1.4 研究思路

(1)数据收集

主题可从各种疾病相关论坛或相关产品的评论和反馈中收集。这里是一个与帕金森病相关的论坛和几个主流信息产品。

(2)数据分析

根据主题阅读量,选择用户阅读量高的主题,通过自然语言技术提取主题和标签,然后使用分类算法对主题和标签进行分类,总结用户关注的主题内容。

根据信息阅读量,筛选阅读量前后文章,对标签进行分类,并与主题分析结果进行比较,以验证分析结果是否一致。

02 分析过程

2.1 数据概览

在收集主题数据后,首先大致浏览,检查是否有缺失或无意义的数据,如果数量不大,可以直接删除。

据统计,有效话题总数为6840个,作为一种单一疾病是可观的。积累这么多内容的背后是大量用户。

然后观察数据结构,以下是主题的数据结构。

不难发现,发布时间、阅读数和评论数三个指标是值类型(即可比较大小的数字),因此可以直接从这三个指标开始分析。

先看发表时间,对数据做个排序就可以知道最近的发表时间是2019年9月9日(数据从10月中旬开始采集),时间距离当前很近,说明目前仍有人在使用。最早的发表是2002年3月4日,距今已有17年半,论坛创建的时间越早,沉淀的内容越多是好事。

出版时间是时间维度的一个点。为了反映整体规律,我们应该考虑通过分组聚合。由于时间跨度较大,以年为频率(月也可以,但太细)。根据年度小组统计,每年出版的文章见下图(2002年数据较少,2003年数据不足)。

从上图可以看出,论坛的发帖量大致分为三个周期:2008年前平均值附近的 ** 运动,2009年大幅上升至2013年,2014年后几乎逐年下降。从每年的帖子数量来看,似乎没有发现任何问题,围绕出版时间维度的分析,这一现象背后的原因不在本分析的范围内(我猜可能与帕金森病患者的增加或社会环境有关(如2013年左右的智能手机推广)。

接下来,我们来看看阅读数指标。所有主题的累计阅读数为22、326、3 ** ,阅读量不小,平均每年只有近130万个话题。PV(全国帕金森病患者约200万,年增量约10万),侧面说明收集的数据能更好地反映帕金森用户关注的问题。

按阅读数对话题进行降序处理,然后按10%的发帖数作为累进阅读数和,如下图所示。

从上图可以直观地看到有趣的事情,前10%的话题聚集在一起56.1520%的话题产生了%的阅读量65.37%,虽然不符合28年的规律,但阅读集中度仍然很明显。因此,我们可以从这20%的话题开始分析用户关注的内容(如果阅读量分布相对平衡,我们可以考虑采用分层抽样统计。一方面,只选择20%的内容可以更好地突出问题,另一方面,留下80%的数据来选择测试数据进行测试)。

2.2 分析高度关注的话题的内容

接下来,利用自然语言技术,根据其内容提取所有主题标签,浏览主题标签,根据标签内容对主题进行分类(分类可以手动、基于规则、回归或决策模型,手动检查分类结果),并将分类结果与测试数据相结合F检查(与前20%主题的检查结果不一致,表明阅读量与内容相关),反复修改分类划分,筛选用户关注的问题(省略具体实现过程)。

阅读前20%主题的内容分析结果如下图所示:

在分析之前,我认为帕金森病用户最关心的是医疗问题。毕竟,患者想找到熟练的专家进行治疗。但从上面可以看出,帕金森病用户最关心的是药物问题。为什么会出现这种结果,他们应该结合疾病和患者的特点来解释。

首先,帕金森病目前无法治愈,只能通过医疗手段延缓疾病的发展。目前,最低成本、最快、最有效的治疗方法是服药,这意味着帕金森病患者占很大比例(事实上,几乎每个人都必须服药)。其次,帕金森病的症状很多,不同症状使用的药物也不同。此外,该病主要集中在中老年人。受生理功能下降的影响,常出现其他并发症,患者使用的药物差异较大。最后,疗效也有很大的影响。即使同一症状的患者使用相同的药物,受个体差异的影响,疗效也会有很大的差异。即使同一患者在不同的阶段和时间服用相同的药物,疗效也会有所不同,因此药物问题一直受到用户的关注。

帕金森病用户关注的第二个问题是治疗方法。帕金森病患者长期以来一直被帕金森病困扰。得知一种新的治疗方法就像有改进的希望,这也是本能驱动的。第三个问题是分享经验。帕金森病患者的治疗经验大多是曲折的。从他人分享的故事中,他们不仅可以学习治疗经验,还可以获得不屈不挠的情感共鸣,寻求心理安慰。

并列第四、第五是日常康复和症状应对。日常康复主要包括运动、饮食、运动和睡眠。需要长期坚持,并根据病情变化进行相应调整;症状应对这类问题主要是在患者出现异常症状或病情改善效果持续不佳时寻求帮助。这种帮助往往是突然的,频率不高,话题的深度取决于内容。除了药物问题,这四类问题更受关注,与疾病有关,其他问题的关注度相对较低。

由于药物问题是帕金森用户关注的首要问题,因此有必要对药物问题进行细分。细分结果见下图:

从讨论目的的维度细分药物相关话题,可以发现大致可以分为两类。第一类是调整用药或了解药效(两者分为一个问题,因为大部分话题讨论用药效果的最终目的是借鉴别人的经验来调整用药)。现实中,帕金森病患者要经常找医生调整用药方案,但医生在就医过程中很难准确掌握病人的病情,所以很难给出准确的用药方案。如果用药方案效果不好,患者经常在症状的折磨下尝试调整用药方案,调整方向很大程度上借鉴了其他患者是否与自己的病情相似,需要参考的因素很多,如年龄、病龄、严重程度、症状、历史用药方案等。因此,如何及时有效地调整用药方案已经成为帕金森病患者中经常讨论的问题。

第二类涉及药品是购买或转让药品,一方面,许多与帕金森病相关的药品经常缺货或供应渠道不稳定,为了确保药品的维护,必须经常关注供应渠道或委托他人从国外购买,另一方面,国内销售的帕金森病药品不便宜,大多数患者用药品种多,剂量大(如三年帕金森病患者经常每天吃四五次,一次两三次),长期用药必然会产生经济压力,被迫服用各种仿制药以降低治疗成本。

为了更直观地了解药物话题的内容,这里将涉及药物话题的主题词提取出来制作成词云:

从上面可以看出,有三种突出的词语。第一类是药物,如雷沙吉兰、美多芭、森福罗、泰舒达等,第二类是与人有关的词语,如患者、医生、朋友、患者等,第三类是信息词,如效果、病情、经验等。然后,当这三个词融合在一起时,它们很可能是想向这些人表达对药物效果或某些情况下药物过程的理解。

细分的结果如下图所示。

新疗法是治疗方法中最受关注的治疗方法。大多数新疗法仍处于研发或临床阶段。提供的主要内容是理论支持或为数不多的试验结果。事实上,实际实施时间仍然很长,但对于帕金森病患者来说,每种方法都有更多的希望和期望。

二是中医治疗。帕金森病患者主要是中老年人,对中医治疗接受度较高。这种治疗主要是草药、针灸、穴位、艾灸或其他民间处方的应用。其效果不能概括为有效或无效,但尝试过程在心理安慰中起着作用,积极的心理可以很好地缓解抑郁。

再次是DBS(深度脑 ** )手术主要是将电极植入患者大脑,使用脉冲发生器 ** 大脑深处的一些神经核可以纠正异常的脑电环,从而减少这些神经症状。这是一种有效的治疗方法,可以长期改善帕金森病症状,但接受度不高。患者主要担心手术效果、费用和报销政策、医疗水平等。

2.3 对阅读量最高的话题的情感分析

帕金森用户主要关注药物和治疗方法,从阅读量前20%的话题进行分析。沿着阅读量的维度,看看阅读量最高的话题。

这个话题于2004年11月发布,积累了1194篇评论,阅读量超过148万篇。这个话题讲述了一个病人在尝试了中医提供的中药后很快生效的故事。这个内容与前面分析的用户最关心的药物和中药问题是一致的,这也是这个话题可以产生如此大的访问量的根本原因。由于主题的具体内容众多用户的参与,这次我试图从情感层面分析用户对帕金森病治疗的态度(最初试图直接提取观点,但效果不好),并相信它0.8分析结果如下图所示。

67%的用户对这种中药可以缓解帕金森病症状持积极或肯定的态度,33%的用户持消极或质疑的态度,两者只是二比一。从表面上看,大多数用户对中药持积极的态度,但另一方面,几乎三个帕金森病用户中的一个质疑,这也很大,因此有必要梳理出两类人的积极和消极态度。

以上是一些负面评论的内容。很容易看出,负面评论主要是配方成分不明,是否有科学依据,从而预防药物的使用。其背后是对不透明信息的担忧。毕竟,不良药物的人身摄入是非常有害的,更深层次的原因是药物价值缺乏可信度。

持积极态度的用户大多从希望和实际效果两个方面发表评论,这也与药物和新疗法高度关注的原因一致。

2.4 对阅读量高和阅读量低的文章的语义网络分析

以上是基于数千个用户讨论的主题分析的用户需求偏好。文本交流只是用户行为的一部分。因此,有必要通过其他行为的偏好来验证这一结果。为了方便观察,选择阅读行为,通过阅读内容判断上述需求是否建立。

为了更直观地比较,阅读量降序后,选择前20%和后20%的文章进行分析(约280篇)。接下来,类似于上述分析主题的方法,主题标签是通过自然语言技术提取的,但这次没有分类,因为我想通过构建文章的语义网络来观察具体内容。

(语义网络,阅读量前20%)

(文章语义网络阅读量后置20%)

以上两张图直观地反映了前后文章阅读量的语义网络。标签图形越大,标签上的文章越多,网络线越粗,连接的标签同时出现的频率越高。不难发现两者的网络内容差异很大,主要有几点。

首先,语义网络的复杂性是不同的。与阅读量后20%的文章相比,阅读量前20%的文章的语义网络更为复杂,但中心标签与边缘标签清晰,中心标签之间连接清晰,几乎所有边缘标签都直接连接到中心标签。阅读量后20%的文章的语义网络相对简单,中心标签和边缘标签不能明确定义,边缘标签大多是间接连接的中心标签。因此,可以推断,阅读量高的文章的特点是内容与主题密切相关,文章的深度主要涉及广泛的信息(边缘标签更复杂),简单理解是阅读量高的文章相对较长,与主题密切相关,阅读量低的文章一般,缺乏实质性内容。

第二,主题标签不同。前20%阅读的文章的中心标签是药物、保健和运动。后20%阅读的文章最突出,其次是静态震颤、运动和饮食。两张图片标签对比最明显的区别是前20%阅读的文章含有药品标签,在语义网络中最引人注目。这直接说明涉及药品的文章阅读量高,用户更关注药品文章。

可以看出,帕金森用户对药物的高度关注与主题讨论和阅读文章一致,这表明药物问题确实是帕金森用户的主要痛点。

03 总结

根据对帕金森病相关话题和文章的分析,我们可以清楚地看到,帕金森病用户的在线需求主要是了解药物的使用和购买、当前或前沿的治疗方法、其他帕金森病患者的治疗经验和日常康复。

它的动机主要是自己或家人患有帕金森病,需要积累疾病管理知识,或缺乏解决某些特定症状困难的经验,需要寻求帮助或类似的解决方案经验。在寻求帮助的过程中,目标往往非常明确。因此,帕金森用户线上需求的本质是寻求以疾病问题解决为导向的经验分享。

那么围绕用户的本质需求,产品应该尽可能提供丰富的疾病资料或管理经验,提升用户获取解决方法的效果和效率。另外由于帕金森病患者的个体差异较大,遇到的问题也不尽相同,如何方便用户根据自己的问题匹配现有的他人经验就是产品的一大挑战。所以产品的核心应该是提升这些知识或经验的聚合以及内容的检索能力。

但是即使产品可以提供疾病相关的信息和经验分享,又如何让用户相信内容有价值并且参与到经验分享的过程,其关键是要构建用户与平台的信任关系。在前面分析阅读量最高的讨论中,帕金森患者愿意尝试中药除了自己身渴望改善的因素外,更多基于对版主和平台的信任。用户和平台天然没有信任关系,但患者之间是有信任的,因为彼此并没有利益输送,所以利用这种关系来构建用户与平台的信任将是一个重要突破口。

最后要说明的是本次基于数据分析的帕金森用户需求报告有两大局限性,一是侧重于用户交流内容,行为偏好较少,二是分析的颗粒度较大,比较宏观,欢迎广大PM共同探讨。

本文由 @凌波 原创发布于人人都是产品经理,未经作者许可,禁止转载。

题图来自Unsplash,基于CC0协议。

私域操盘咨询

免费获取私域运营资料

申请免费使用

在线咨询