微信朋友圈流传的“全国感染进展图”准确吗?我们采访了专家
“仅基于搜索数据的预测模型的准确性普遍不高。”专家·郭涛告诉记者,他是一位天使投资人,也是人工智能领域的领先者。北京社科院大数据业务分析师研究员王鹏教授表示,基于搜索大数据预测COVID-19感染高峰,国外早已采用。但实际上,王鹏认为目前搜索引擎的使用,尤其是仅仅依赖百度数据,可能会出现偏差。
随着越来越多的人被感染,本轮疫情的进展以及我们何时才能恢复正常生活受到广泛争论。
其中,“大数据”尤其受到公众关注。
12月15日左右,朋友圈和微信群广泛流传预测各城市第一轮感染高峰期的截图。
图中显示了全国不同省份和地区主要城市的疫情进展情况以及最终高峰的预测,并且这些数据在不断更新。
以石家庄、北京、郑州三市为例,根据最早的版本,12月10日,第一波聚集性感染高峰中石家庄占77%,北京占29%,郑州占11%。 。
12月12日,厂家开发的小程序上更新了数据:石家庄为84%,北京为38%,郑州为15%。
最新版本已于 12 月 16 日停产。石家庄达到100%,北京达到87%,郑州达到46%。
当时,三个城市的感染人数合计分别占总人口的49%、35%和19%。
该数据集的原作者是知乎V@chenqin。他的标签是“数据皇帝”、“2021新知识解答大师”。
据他预测,12月16日,石家庄、保定、邢台等地的“峰值进度”达到100%。
第一轮感染高峰将于2023年1月22日在北京、2023年1月18日在上海、2023年1月14日在成都结束。
那么这个预测时间表的依据是什么,是否可靠呢?

当你在网上搜索“发烧”时,你会输入数据吗?
12月15日以来,大河日报·鱼视频《看见》记者多次向@chenqin询问算法和数据问题,但尚未得到任何答复。

不过@chenqin在他发表的文章中已经展现了他的初衷和方法。
“我还分析了台湾、香港特别行政区和日本的感染情况和‘发烧’搜索指数,找到了一个可以帮助预测感染高峰期的方法。

其方法是根据百度按地区的搜索数据收集关键词“发烧”的搜索数据,提取非疫情时期的常数,最后根据香港、台湾、国外等地区的样本进行趋势拟合。并比较计算出各地区的疫情进展情况。
简而言之,如果有人在百度上搜索某个城市的“发烧”,就为判断该城市的疫情提供了参考数据。
对于这样做的初衷,@chenqin表示,疫情高峰时间的计算最初只是为了搜索索引。初衷是让大家觉得有趣,但无心插柳,其实可能有助于缓解很多人的焦虑:“还是希望你们继续更新,让这个粗略的数据指导大家第一波冲击。”
截至12月17日,@chenqin发布的《各城市首轮感染高峰期预测》,包括各城市感染高峰时间、进展情况、第一波疫情结束时间、总感染率等,在知乎上已获得11000个点赞,而且数据已经广泛传播,他们参考自家媒体,经常被追捧。
有网友点赞回答者,称这种方法虽然“简单粗暴”,但逻辑是正确的。已经发表了几篇关于通过搜索引擎数据预测流感流行趋势的论文。
也有网友表示,这些数字不符合自己城市的感受,“保守”。
几位网友宁愿相信真相,评论话题也转向了与数据“严重性”相对应的疫情经历。

专家:有一定参考价值,但还有优化空间
利用搜索引擎数据构建预测疫情趋势的模型,这些预测数据的参考价值有多大?
“仅基于搜索数据的预测模型的准确性普遍不高。”天使投资人、人工智能领军人物专家·郭涛告诉大河日报·喻视频记者。
郭涛表示,疫情传播速度受到感染人数和轨迹、人口流动信息、居民生活方式、交通状况、健康状况和天气状况等综合因素影响。如果你想做出预测,你需要了解疫情的影响。有多少因素在沟通中发挥作用以及它们如何相互作用?仅仅搜索数据是不够的。
“美国早些年就用搜索量来做相关预测,这可能在一定程度上反映了疫情的整体传播速度和爆发量。”北京社科院大数据业务分析师研究员在接受记者采访时表示,国外早就利用大数据根据搜索来预测COVID-19感染高峰。
针对不同城市,预测感染何时达到高峰、何时消退、第一波的进展情况等。在一定程度上,对公共政策制定者、政府和公众具有参考价值,有助于大家了解趋势。关于疫情。
但从实际角度来看,王鹏觉得目前搜索引擎的使用,尤其是单纯依靠百度数据,可能存在偏差。移动互联网时代和PC时代是有区别的。首先,很多人不一定再用手机搜索。即使是移动搜索引擎也有很多来源,不一定是百度。国内还有很多其他的搜索引擎。另外,可能会出现很多人不在搜索引擎中搜索,但也可能在社交平台或者短视频平台上搜索,所以相关搜索的数量和数据本身都存在问题。
其次,在自媒体时代,人们搜索某个关键词时,自己可能没有症状,但家人或朋友可能有症状。在某种程度上,我们正处于一个信息茧中。换句话说,在互联网搜索引擎上赚得最多的人可能是收入水平、年龄和互联网技能相似的某些人群。剩下的绝大多数人很少或根本不使用互联网。他们是“沉默的大多数”。因此,完全根据搜索数据来推测疫情爆发是不准确的。
王鹏还建议,电脑数据和移动数据都要兼顾,数据来源不仅是搜索引擎,还应该是社交媒体和短视频平台数据。同时,算法不能太简单,必须经过多次优化重组,进行进一步的训练,才能得出更准确的结论。
大河新闻·于视频《看见》记者/张晶晶
编辑/刘永恒
协调员/特晓鹏