爬虫介绍:从1号直播间爬取发弹幕人账号,当时在线人数有五万左右,但到8000多时每3s发弹幕的新用户已经很少了,所以我就以这8000多人为起始点,将其放入队列中,取出一个,获得其关注人数,粉丝数,并将其关注的人放入队列中。
我介绍爬虫的目的是,说明从爬取的方式来数据具有偏向性,偏向有关注的用户,对于没有关注者的人只可能在那8000多人中才会被爬到。
对于用户信息,我爬取了,id,name,sex,地址,粉丝数,关注数,等级,出生日期。
对于这些数据噪声非常大,特别是出生日期,另外还具有时效性,至于粉丝数一天之内可以变化很大,这也是为什么在我对于一些数据分析不怎么熟悉情况下,写这篇文章的原因,还须大家指点。
Python+Mysql,队列中有20w,但时间太长,我存入数据库8w。
图表用的文图。
一、对性别比例分析
1.全部
从图中看出男性比例很大,这也是好多人戏称,B站,大型同性交友网站。。。
此图忽略“保密”。
2.有一定粉丝数用户
第一张图引起我的好奇,我在B站首页,那些直播间女主播较多,为什么,粉丝数多的,男性占大多数?
我分析有两点:由BiliBili自身因素。男性基数大,内容方面偏向男性,虽然有直播,但直播这种形式兴起时间对于BiliBili发展时间看,不算很长,因此,可以说女性处于崛起阶段(由后两张可看出)。
团体组织,性别填男较多。比如暴走漫画,万合天宜,哔哩哔哩番剧等。
二、地域分布
排名情况:
三、粉丝数排名
由于数据的时效性,粉丝数统计数据会变化较大。
对于出生日期,还须进一步处理后,才能用于分析。
希望请教的问题:python 爬取,我是多线程爬取,但速度还是很慢,怎么加快速度?
我是 sql统计+文图输入数据画图 ,怎样更优雅的进行分析?
希望大家不吝赐教~谢谢!
别人建议补充:stark 显示各种数据历史曲线。(比如用户增长,女主播粉丝增长)
如果觉得《python爬取bilibili数据_BiliBili爬取数据简单分析》对你有帮助,请点赞、收藏,并留下你的观点哦!