快捷导航
查看: 77|回复: 16

百度统计触发关键词(百度关键词数据抓取)

[复制链接]

1万

主题

0

回帖

1万

积分

论坛元老

积分
12107
发表于 2023-10-8 21:17:43 | 显示全部楼层 |阅读模式
<p>
   阅读此文之前,麻烦您点击一下“关注”,既方便您进行讨论和分享,又能给您带来不一样的参与感,感谢您的支持!
  </p><p>
<br/>
</p><p>
   随着感染者越来越多,这一轮疫情的“进展”以及何时才能恢复正常生活引起了很多讨论。
  </p><p>
   其中,“大数据”尤其受到公众的关注。
  </p><p>
   12月15日左右,一组预测各城市第一轮感染高峰期的截图在朋友圈和微信群中广泛流传。
  </p><p>
   图中给出了全国不同省份和地区主要城市的疫情进展以及最终高峰的预测时间表,并且这些数据在不断更新。
  </p><p>
   以石家庄、北京、郑州为例,最早的版本是,截至12月10日,石家庄已完成第一波群体性感染高峰的77%,北京为29%,郑州为11%。
  </p><p>
   12月12日,厂家开发的小程序上更新了数据:石家庄为84%,北京为38%,郑州为15%。
  </p><p>
   最后一个版本于12月16日停止。石家庄完成100%,北京完成87%,郑州完成46%。
  </p><p>
   此时,三个城市累计感染人数分别占总人口的49%、35%、19%。
  </p><p>
   这组数据的原作者是知乎大V@chenqin,“数据皇帝”、“2021新知识解答大师”是他的标签。
  </p><p>
   据预测,截至12月16日,石家庄、保定、邢台等地“峰值进度”已达100%。
  </p><p>
   北京于2023年1月22日结束第一轮感染高峰,上海于2023年1月18日结束第一轮感染高峰,郑州于2023年1月14日结束第一轮感染高峰。
  </p><p>
   那么,这个预测方案的依据是什么,可靠吗?
  </p><p class="pgc-img-caption">
</p><p>
<br/>
</p><p>
   大河新闻·于视频《看见》记者/张晶晶
  </p><p>
   编辑/刘永恒
  </p><p>
   协调人/尤晓鹏
  </p><p>
   当你在网上搜索“发烧”时
  </p><p>
   刚刚贡献了一份数据?
  </p><p>
   12月15日以来,大河新闻·鱼视频《看见》记者多次联系@chenqin本人询问算法和数据方面的问题,但均未得到回复。
  </p><p class="pgc-img-caption">
</p><p>
<br/>
</p><p>
   不过@chenqin在他发表的文章中已经介绍了他的初衷和方法。
  </p><p>
   “我还分析了台湾、香港特别行政区和日本的感染情况和‘发烧’搜索指数,找到了一种可以帮助预测感染高峰期的方法。”
  </p><p class="pgc-img-caption">
</p><p>
<br/>
</p><p>
   他的方法是根据百度搜索数据按地区统计关键词“发烧”的搜索数据,减去非疫情期间的常数,最后根据香港、台湾、海外等地区的样本进行趋势比较。统计了各地区疫情进展情况。
  </p><p>
   简而言之,当某个城市的某人在百度上搜索“发烧”时,它提供了参考数据,以便他判断该城市的疫情。在谈到这样做的初衷时,@chenqin表示,疫情高峰时间的计算最初只是为了搜索索引。不断更新,让这些原始数据帮助你度过最初的震惊。”
  </p><p>
   截至12月17日,@chenqin发布的《各城市首轮感染高峰期预测》,包括各城市感染高峰日期、进展情况、第一波疫情结束时间、累计感染比例等,在知乎已获得11000个点赞,其数据被媒体广泛引用并登上热搜。
  </p><p>
   有网友点赞回答者,称这种方法虽然“简单粗暴”,但逻辑是正确的。已经发表了许多关于通过搜索引擎数据预测流感流行趋势的论文。
  </p><p>
   也有网友表示,数据与自己城市的感受不符,“保守”。
  </p><p>
   一些网友更愿意相信事实,帖子的主题围绕着可以与数据“严重性”相比较的疫情知识。
  </p><p class="pgc-img-caption">
</p><p>
<br/>
</p><p>
   专家:有一定参考价值
  </p><p>
   但还有优化的空间
  </p><p>
   利用搜索引擎数据建立模型来预测疫情趋势,预测数据的参考价值是什么?
  </p><p>
   “仅通过搜索数据建立的预测模型的准确性通常不高。”天使投资人、资深人工智能专家郭涛告诉大河新闻·宇视频《看见》记者。
  </p><p>
   郭涛表示,疫情传播速度受感染人数及其活动轨迹、人口流动信息、市民生活方式、交通状况、医疗状况、天气状况等综合因素影响。因素有多少,以及它们如何相互作用,仅仅通过搜索数据是不够的。
  </p><p>
   “早些年,美国是用搜索量来做相关预测的,某种程度上可能反映了疫情整体的传播速度和爆发量。”北京社科院研究员、大数据业务分析师王鹏教授接受记者采访。他表示,基于大数据搜索来预测新冠疫情感染高峰,实际上国外已经有所应用。
  </p><p>
   对于不同的城市,预测感染何时达到高峰、消退以及第一波疫情的进展等,在一定程度上对于公共政策制定者、政府和公众都有一定的参考价值,有助于大家了解疫情的情况。疫情趋势。
  </p><p>
   但从实际角度来看,目前使用的搜索引擎,尤其是仅基于百度的数据,王鹏觉得可能会失真。
  </p><p>
   移动互联网时代和PC时代是有区别的。首先,使用手机搜索的人并不总是很多。即使是手机搜索引擎也有很多来源,不一定是百度,国内的其他搜索引擎也有很多。另外,很多人可能不会在搜索引擎上搜索,但也可能会在社交或短视频平台上搜索,所以相关搜索的数量和数据本身都存在一些问题。其次,在这个自媒体时代,人们搜索某个关键词时,自己不一定有症状,但家人或朋友可能有症状。在某种程度上,我们被困在信息茧中。换句话说,我们在互联网搜索引擎上搜索最多的人可能是收入水平、年龄、对互联网熟悉程度相似的特定人群。其余绝大多数人较少使用互联网,或根本不使用互联网。他们是“沉默的大多数”。因此,完全根据搜索数据来推测疫情的情况肯定不是特别准确。
  </p><p>
   王鹏还建议,PC端和移动端数据都要考虑,数据源不仅应该是搜索引擎,还应该包括社交媒体和短视频平台数据。同时算法不宜过于简单,应进行多次优化重组,进一步训练才能得出更准确的结论。
  </p><p>
<br/>
</p><p>
   免责声明:文章内容如涉及作品内容、版权图片或其它问题,请在30日内与本号作者联系,如反映情况属实我们将第一时间删除责任文章。文章只提供参考并不构成任何投资及应用建议。
  </p>

1

主题

2920

回帖

4385

积分

论坛元老

积分
4385
发表于 2023-10-18 19:17:03 | 显示全部楼层
这真是不错,顶给需要的人

1

主题

3002

回帖

4508

积分

论坛元老

积分
4508
发表于 2023-10-21 14:33:39 | 显示全部楼层
有点意思,谢谢楼主的无私分享!!!

1

主题

3036

回帖

4559

积分

论坛元老

积分
4559
发表于 2023-10-27 03:10:09 | 显示全部楼层
牛啊兄弟 支持一下

1

主题

2886

回帖

4334

积分

论坛元老

积分
4334
发表于 2023-10-27 03:10:10 | 显示全部楼层
看帖回帖是美德!

1

主题

2924

回帖

4391

积分

论坛元老

积分
4391
发表于 2024-1-8 11:19:11 | 显示全部楼层
有竞争才有进步嘛

1

主题

3146

回帖

4724

积分

论坛元老

积分
4724
发表于 2024-2-16 05:05:55 | 显示全部楼层
大佬牛逼,学习了

1

主题

2956

回帖

4439

积分

论坛元老

积分
4439
发表于 2024-2-16 05:06:46 | 显示全部楼层
不错不错,楼主您辛苦了。。。

1

主题

2928

回帖

4397

积分

论坛元老

积分
4397
发表于 2024-2-16 05:11:40 | 显示全部楼层
好帖,来顶下

1

主题

2904

回帖

4361

积分

论坛元老

积分
4361
发表于 2024-3-17 19:37:06 | 显示全部楼层
找到好贴不容易,兄弟们,顶起!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|聚云老站长 ( 粤ICP备2023011934号-1 )

GMT+8, 2024-6-18 01:50 , Processed in 0.717973 second(s), 25 queries .

快速回复 返回顶部 返回列表