日期 | 2019/12/15 |
小组协作式数据交互可视化项目 | TED演讲数据可视化分析 |
完成情况 | 完成 |
小组成员 | @卢佳燕 @李虹霓 @黄嘉雯 |
TED由Richard Saulman创立于1984年,是一家旨在将技术(technology),娱乐(entertainment)和设计(design)领域的专家聚集在一起的非盈利组织。Ted的口号是"Ideas worth spreading",也就是“值得传播的思想”。本研究首先针对ted_main.csv数据集,该数据集包含了2017年9月21日之前上传到官方网站TED.com的所有TED Talks演讲录制信息。
另一个数据集transcripts.csv包含了具体的演讲文本信息,我们稍晚一些时候再进行分析。
首先,让我们简单看一下ted_main.csv数据集的概况,并对数据集进行初步调整,看看有什么值得探索的方向。
- 浏览量最高的10个TED视频可视化分析
- 讨论量最高的10个TED视频可视化分析
- 浏览和讨论是否成正比
- 演讲的人多数来是什么职业
- 什么时候演讲比较多
- TED演讲的评价分析
- 不同时间的观看数和评论数对比
- 交互部分
下拉选单联动可视化 | 分类筛选 | 不同主题标签的浏览量对比 |
可视化图关联表格处理 | 表单折叠 | 表格数据太长不美观问题 |
TED演讲top5视频 | 点击图片跳转至对应TED视频连接 | top视频连接及对应图片封面 |
- 可视化部分
各分类主题和浏览数量 | 条形图 |
浏览量vs评论量 | 相关关系图 |
不同时间的评论和观看数 | 交互折线图 |
演讲者职业和演讲数量 | 条形图 |
时间和演讲数量 | 折线图 |
- pandas做数据清理和处理
- plotly可视化
- dashipynb文件
- flask模块渲染页面
- pythonanywhere交互图片需要点击“数据分析展示”下面链接内容
- pythonanywhere2基于@李虹霓的版本加了故事描述
- 参考一些代码做美化 (Bootstrap 表单、面板、折叠、图片排版等、网上css样式)
简述:本数据集包含了2017年9月21日之前上传到官方网站TED.com的所有TED Talks演讲录制信息。
文件列表:
- ted_main.csv: 包含演讲主要信息,包括演讲标题,发言人,演讲内容,观看次数,评论数量,演讲评分等。
- transcripts.csv: 包含演讲链接和官方英文字幕。
数据内容源自于kaggle平台用户分享,基于Creative Commons License发布,具体信息内容源自TED官网。
TED数据主题分析学习
版本 | 日期 | 修改内容 | 涉及人员 |
---|---|---|---|
V1.1 | 2019.12.15 | 展示PRD、原型,招募人员 | 卢佳燕 |
V2 | 2019.12.18 | 数据清洗及部分可视化 | 卢佳燕 |
V3 | 2019.12.30 | dash、flask本地内容 | 卢佳燕 |
V4 | 2019.1.1 | 页面顶部标题图样式和交互处理 | 李虹霓 |
V5 | 2019.1.1 | 页面底部图片样式和交互处理 | 黄嘉雯 |
V6 | 2019.1.5 | Pythonanywhere部署 | 李虹霓 |
V6 | 2019.1.6 | Pythonanywhere部署基础上加文字描述和样式 | 卢佳燕 |