加入收藏 | 设为首页 | 会员中心 | 我要投稿 源码门户网 (https://www.92codes.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

用数据分析网络暴力有多可怕

发布时间:2019-04-02 06:11:41 所属栏目:教程 来源:小F
导读:副标题#e# 这应该是一篇拖得蛮久的文章。 故事源于潘长江在某个综艺节目上没认出蔡徐坤,然后潘长江老师的微博评论区就炸锅了。 最后搞得两边都多多少少受到网络暴力的影响。 直至今日,这条微博的评论区还在更新着。 不得不说微博的黑粉,强行带节奏,真的

清洗代码如下。

  1. import pandas as pd 
  2. import pymysql 
  3.  
  4. # 设置列名与数据对齐 
  5. pd.set_option('display.unicode.ambiguous_as_wide', True) 
  6. pd.set_option('display.unicode.east_asian_width', True) 
  7. # 显示10列 
  8. pd.set_option('display.max_columns', 10) 
  9. # 显示10行 
  10. pd.set_option('display.max_rows', 10) 
  11. # 设置显示宽度为500,这样就不会在IDE中换行了 
  12. pd.set_option('display.width', 2000) 
  13.  
  14. # 读取数据 
  15. conn = pymysql.connect(host='localhost', user='root', password='774110919', port=3306, db='weibo', charset='utf8mb4') 
  16. cursor = conn.cursor() 
  17. sql = "select * from comments" 
  18. db = pd.read_sql(sql, conn) 
  19.  
  20. # 清洗数据 
  21. df = db['user_message'].str.split(' ', expand=True) 
  22. # 用户名 
  23. df['name'] = df[0] 
  24. # 性别及地区 
  25. df1 = df[1].str.split('/', expand=True) 
  26. df['gender'] = df1[0] 
  27. df['province'] = df1[1] 
  28. # 用户ID 
  29. df['id'] = db['user_id'] 
  30. # 评论信息 
  31. df['comment'] = db['comment'] 
  32. # 点赞数 
  33. df['praise'] = db['praise'].str.extract('(d+)').astype("int") 
  34. # 微博数,关注数,粉丝数 
  35. df2 = db['weibo_message'].str.split(' ', expand=True) 
  36. df2 = df2[df2[0] != '未知'] 
  37. df['tweeting'] = df2[0].str.extract('(d+)').astype("int") 
  38. df['follows'] = df2[1].str.extract('(d+)').astype("int") 
  39. df['followers'] = df2[2].str.extract('(d+)').astype("int") 
  40. # 评论时间 
  41. df['time'] = db['date'].str.split(':', expand=True)[0] 
  42. df['time'] = pd.Series([i+'时' for i in df['time']]) 
  43. df['day'] = df['time'].str.split(' ', expand=True)[0] 
  44. # 去除无用信息 
  45. df = df.ix[:, 3:] 
  46. df = df[df['name'] != '未知'] 
  47. df = df[df['time'].str.contains("日")] 
  48. # 随机输出10行数据 
  49. print(df.sample(10)) 

输出数据。

用数据分析网络暴力有多可怕

随机输出十条,就大致能看出评论区是什么画风了。

四、数据可视化

(编辑:源码门户网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读