选择特殊符号

选择搜索类型

热门搜索

首页 > 百科 > 建设工程百科

数据可视化——从小白到数据工程师的成长之路

《数据可视化——从小白到数据工程师的成长之路》是2019年11月电子工业出版社出版的图书,作者是刘英华。

数据可视化——从小白到数据工程师的成长之路基本信息

数据可视化——从小白到数据工程师的成长之路目录

第1章 基础知识 1

1.1 模拟和数字化 1

1.2 数模转换 1

1.3 进制 2

1.4 存储单位 3

1.5 因特网 3

1.6 地址和协议 4

1.7 域名和域名系统 6

1.8 网络速率 6

1.9 数据可视化 7

小结 7

习题1 7

第2章 数据获取 8

2.1 知识共享许可协议 8

2.2 搜索数据 9

2.2.1 搜索引擎 10

2.2.2 浏览器 11

2.2.3 搜索指令 11

2.3 主动公开的数据 15

2.3.1 我国政府数据 15

2.3.2 国际组织数据 17

2.3.3 科研机构及第三方数据公司 17

2.4 依申请公开数据 17

2.5 数据众包 18

2.6 抓取工具 18

2.6.1 import.io工具 20

2.6.2 Octoparse工具 23

2.7 Python基础 33

2.7.1 环境配置 33

2.7.2 第一个Python程序 35

2.7.3 变量和运算符 36

2.7.4 条件语句 43

2.7.5 循环语句 45

2.7.6 输入和输出 48

2.7.7 文件的读/写 49

2.8 Beautiful Soup库 51

2.8.1 安装Beautiful Soup 51

2.8.2 使用Beautiful Soup抓取网页数据 52

2.9 图片的获取 56

2.9.1 常用的图片编辑软件 56

2.9.2 图片文件类型 57

2.9.3 图片文件的保存 58

2.10 音频的获取 59

2.10.1 常用的音频编辑软件 60

2.10.2 音频文件类型及保存 61

2.11 视频的获取 62

2.11.1 常用的视频编辑软件 62

2.11.2 视频文件类型 63

2.11.3 视频文件的保存 63

2.12 数据格式转换 64

2.12.1 数字图片的格式转换 65

2.12.2 数字音频的格式转换 67

2.12.3 数字视频的格式转换 68

2.12.4 文件格式转换 68

2.12.5 可机读数据 70

小结 70

习题2 70

第3章 数据清洗 71

3.1 Jupyter Notebook 71

3.1.1 安装Jupyter Notebook 72

3.1.2 启动、关闭notebook服务器 72

3.1.3 保存notebook 75

3.2 Pandas包 75

3.2.1 系列(Series) 75

3.2.2 数据帧(DataFrame) 78

3.3 清洗缺失值 80

3.3.1 检查缺失值 80

3.3.2 删除含缺失值的行或列 82

3.3.3 填充缺失值 82

3.4 清洗格式内容 84

3.4.1 删除字符串中的空格 84

3.4.2 大小写转换 85

3.4.3 规范数据格式 87

3.4.4 字符型数据判断 87

"para" label-module="para">

3.5 清洗逻辑错误 88

3.5.1 删除重复记录 88

3.5.2 替换不合理值 89

3.6 删除非需求数据 90

3.6.1 删除非需求行 90

3.6.2 删除非需求列 90

3.7 分组、合并和保存 91

3.7.1 分组 91

3.7.2 数据合并 92

3.7.3 保存结果 96

3.8 数据清洗案例 97

3.8.1 案例1 97

3.8.2 案例2 102

小结 104

习题3 104

第4章 数据分析 105

4.1 数据定位 105

4.1.1 了解基本数据 105

4.1.2 使用[ ]定位 107

4.1.3 使用loc[ ]定位 108

4.1.4 使用iloc[ ]定位 110

4.1.5 使用iat[ ]定位 112

4.2 条件筛选和排序数据 113

4.2.1 条件筛选 113

4.2.2 排序和排名 117

4.3 数据的描述性分析 121

4.3.1 describe( )方法 121

4.3.2 众数、均值和中位数 123

4.3.3 数据重塑 124

4.3.4 相关性计算 131

小结 132

习题4 132

第5章 可视化基础和原则 133

5.1 图表 135

5.1.1 图表的种类 135

5.1.2 图表设计原则 142

5.2 色彩暗示 152

5.2.1 色调 152

5.2.2 明度 153

5.2.3 饱和度 154

5.2.4 色彩暗示的综合运用 155

5.3 图表可视化原则 156

5.3.1 “第一眼”原则 156

5.3.2 数据不是敌人 157

5.3.3 删减无关的元素 157

5.3.4 慎用3D图表 159

5.3.5 视觉暗示的使用 160

5.3.6 整体变个体 161

5.3.7 交互图表原则 162

5.3.8 显示上下文 164

5.4 图表可视化的失败案例 165

5.5 设计排版原则 168

5.5.1 顺序 168

5.5.2 标注 171

5.5.3 动画效果 171

5.5.4 分组 173

5.5.5 赋形 173

小结 174

习题5 175

第6章 数据可视化工具 176

6.1 信息图制作工具 176

6.2 可视化工具Gapminder 179

6.3 可视化工具DataWrapper 181

6.4 可视化工具Gephi 188

6.5 可视化工具QGIS 194

6.6 可视化工具ECharts 201

6.6.1 五分钟上手ECharts 201

6.6.2 第一个ECharts作品 202

6.6.3 使用ECharts主题 206

6.7 可视化工具Tableau 207

6.7.1 安装和简介 208

6.7.2 连接数据 209

6.7.3 工作表 209

6.7.4 仪表板 210

6.7.5 故事 211

6.7.6 保存和导出 211

6.8 用Python和R实现可视化 215

小结 217

习题6 218

"para" label-module="para">

第7章 可视化作品发布 219

7.1 网络基础知识 219

7.2 HTML5基础 220

7.2.1 HTML文档 220

7.2.2 HTML常用标签 221

7.3 CSS3基础 225

7.3.1 内部CSS 225

7.3.2 外部CSS 228

7.4 JavaScript基础 229

7.4.1 直接嵌入HTML使用 230

7.4.2 在HTML中调用 230

7.5 Web应用框架和模板 231

7.5.1 Web应用框架 231

7.5.2 Web模板 233

小 结 234

习 题 7 234

附录A 数据可视化作品 235

附录B 配套教学资源二维码 237

参考文献 238,

第1章 基础知识 1

1.1 模拟和数字化 1

1.2 数模转换 1

1.3 进制 2

1.4 存储单位 3

1.5 因特网 3

1.6 地址和协议 4

1.7 域名和域名系统 6

1.8 网络速率 6

1.9 数据可视化 7

小结 7

习题1 7

第2章 数据获取 8

2.1 知识共享许可协议 8

2.2 搜索数据 9

2.2.1 搜索引擎 10

2.2.2 浏览器 11

2.2.3 搜索指令 11

2.3 主动公开的数据 15

2.3.1 我国政府数据 15

2.3.2 国际组织数据 17

2.3.3 科研机构及第三方数据公司 17

2.4 依申请公开数据 17

2.5 数据众包 18

2.6 抓取工具 18

2.6.1 import.io工具 20

2.6.2 Octoparse工具 23

2.7 Python基础 33

2.7.1 环境配置 33

2.7.2 第一个Python程序 35

2.7.3 变量和运算符 36

2.7.4 条件语句 43

2.7.5 循环语句 45

2.7.6 输入和输出 48

2.7.7 文件的读/写 49

2.8 Beautiful Soup库 51

2.8.1 安装Beautiful Soup 51

2.8.2 使用Beautiful Soup抓取网页数据 52

2.9 图片的获取 56

2.9.1 常用的图片编辑软件 56

2.9.2 图片文件类型 57

2.9.3 图片文件的保存 58

2.10 音频的获取 59

2.10.1 常用的音频编辑软件 60

2.10.2 音频文件类型及保存 61

2.11 视频的获取 62

2.11.1 常用的视频编辑软件 62

2.11.2 视频文件类型 63

2.11.3 视频文件的保存 63

2.12 数据格式转换 64

2.12.1 数字图片的格式转换 65

2.12.2 数字音频的格式转换 67

2.12.3 数字视频的格式转换 68

2.12.4 文件格式转换 68

2.12.5 可机读数据 70

小结 70

习题2 70

第3章 数据清洗 71

3.1 Jupyter Notebook 71

3.1.1 安装Jupyter Notebook 72

3.1.2 启动、关闭notebook服务器 72

3.1.3 保存notebook 75

3.2 Pandas包 75

3.2.1 系列(Series) 75

3.2.2 数据帧(DataFrame) 78

3.3 清洗缺失值 80

3.3.1 检查缺失值 80

3.3.2 删除含缺失值的行或列 82

3.3.3 填充缺失值 82

3.4 清洗格式内容 84

3.4.1 删除字符串中的空格 84

3.4.2 大小写转换 85

3.4.3 规范数据格式 87

3.4.4 字符型数据判断 87

"para" label-module="para">

3.5 清洗逻辑错误 88

3.5.1 删除重复记录 88

3.5.2 替换不合理值 89

3.6 删除非需求数据 90

3.6.1 删除非需求行 90

3.6.2 删除非需求列 90

3.7 分组、合并和保存 91

3.7.1 分组 91

3.7.2 数据合并 92

3.7.3 保存结果 96

3.8 数据清洗案例 97

3.8.1 案例1 97

3.8.2 案例2 102

小结 104

习题3 104

第4章 数据分析 105

4.1 数据定位 105

4.1.1 了解基本数据 105

4.1.2 使用[ ]定位 107

4.1.3 使用loc[ ]定位 108

4.1.4 使用iloc[ ]定位 110

4.1.5 使用iat[ ]定位 112

4.2 条件筛选和排序数据 113

4.2.1 条件筛选 113

4.2.2 排序和排名 117

4.3 数据的描述性分析 121

4.3.1 describe( )方法 121

4.3.2 众数、均值和中位数 123

4.3.3 数据重塑 124

4.3.4 相关性计算 131

小结 132

习题4 132

第5章 可视化基础和原则 133

5.1 图表 135

5.1.1 图表的种类 135

5.1.2 图表设计原则 142

5.2 色彩暗示 152

5.2.1 色调 152

5.2.2 明度 153

5.2.3 饱和度 154

5.2.4 色彩暗示的综合运用 155

5.3 图表可视化原则 156

5.3.1 “第一眼”原则 156

5.3.2 数据不是敌人 157

5.3.3 删减无关的元素 157

5.3.4 慎用3D图表 159

5.3.5 视觉暗示的使用 160

5.3.6 整体变个体 161

5.3.7 交互图表原则 162

5.3.8 显示上下文 164

5.4 图表可视化的失败案例 165

5.5 设计排版原则 168

5.5.1 顺序 168

5.5.2 标注 171

5.5.3 动画效果 171

5.5.4 分组 173

5.5.5 赋形 173

小结 174

习题5 175

第6章 数据可视化工具 176

6.1 信息图制作工具 176

6.2 可视化工具Gapminder 179

6.3 可视化工具DataWrapper 181

6.4 可视化工具Gephi 188

6.5 可视化工具QGIS 194

6.6 可视化工具ECharts 201

6.6.1 五分钟上手ECharts 201

6.6.2 第一个ECharts作品 202

6.6.3 使用ECharts主题 206

6.7 可视化工具Tableau 207

6.7.1 安装和简介 208

6.7.2 连接数据 209

6.7.3 工作表 209

6.7.4 仪表板 210

6.7.5 故事 211

6.7.6 保存和导出 211

6.8 用Python和R实现可视化 215

小结 217

习题6 218

"para" label-module="para">

第7章 可视化作品发布 219

7.1 网络基础知识 219

7.2 HTML5基础 220

7.2.1 HTML文档 220

7.2.2 HTML常用标签 221

7.3 CSS3基础 225

7.3.1 内部CSS 225

7.3.2 外部CSS 228

7.4 JavaScript基础 229

7.4.1 直接嵌入HTML使用 230

7.4.2 在HTML中调用 230

7.5 Web应用框架和模板 231

7.5.1 Web应用框架 231

7.5.2 Web模板 233

小 结 234

习 题 7 234

附录A 数据可视化作品 235

附录B 配套教学资源二维码 237

参考文献 2382100433B

查看详情

数据可视化——从小白到数据工程师的成长之路造价信息

  • 市场价
  • 信息价
  • 询价

工程师

  • 内存:16GB;硬盘:512GB+2T;台式图形工作站:i7-10700 P620 2G独显 3年上门服务 21.8寸显示器
  • 戴尔
  • 13%
  • 广东峤宇科技有限公司
  • 2022-12-07
查看价格

流检数据分发器

  • 数据流分配器
  • 海通
  • 13%
  • 江苏海通交通集团有限公司南宁分公司
  • 2022-12-07
查看价格

数据线

  • RVVP2×1.0
  • km
  • 永茂
  • 13%
  • 东莞市凤岗永茂电缆电线经营部
  • 2022-12-07
查看价格

数据线

  • RVV-2×0.5
  • km
  • 永茂
  • 13%
  • 东莞市凤岗永茂电缆电线经营部
  • 2022-12-07
查看价格

数据线

  • RVV-6×1.0+RG11
  • km
  • 东佳信
  • 13%
  • 东莞市莞城天之立电线电缆经营部
  • 2022-12-07
查看价格

工程驳船

  • 100T以内
  • 台班
  • 清远市英德市2015年4季度信息价
  • 建筑工程
查看价格

工程驳船

  • 200T以内
  • 台班
  • 清远市英德市2015年3季度信息价
  • 建筑工程
查看价格

工程驳船

  • 200T以内
  • 台班
  • 清远市英德市2015年2季度信息价
  • 建筑工程
查看价格

工程驳船

  • 200T以内
  • 台班
  • 清远市英德市2014年2季度信息价
  • 建筑工程
查看价格

工程驳船

  • 100T以内
  • 台班
  • 清远市英德市2014年1季度信息价
  • 建筑工程
查看价格

工程师

  • 工程师
  • 1套
  • 3
  • 高档
  • 不含税费 | 含运费
  • 2022-09-30
查看价格

河长大数据可视化系统

  • 河长大数据可视化系统
  • 1套
  • 2
  • 中档
  • 不含税费 | 不含运费
  • 2019-12-31
查看价格

数据中心可视化系统

  • 数据中心3D 展现平台:数据中心3D展现引擎、展示管理系统、3D模型库、IT系统3D展现引擎、展示管理系统;机柜级设备资产管理可视化:机柜、小型机、带库、存储、UPS、配电柜等独立设备;IT设备级
  • 1套
  • 1
  • 不限
  • 高档
  • 含税费 | 含运费
  • 2017-09-19
查看价格

数据可视化展示

  • 定制
  • 1项
  • 1
  • 广东华南水电高新技术开发有限公司
  • 中档
  • 含税费 | 含运费
  • 2022-04-28
查看价格

科研数据可视化信息处理软件

  • 通过可视化,变为生动直观图形信息,5.支持后台数据填报,对图上数据进行填报、修改,并支持数据动态演变.6.支持总体一张图部署展示
  • 1个
  • 1
  • 中高档
  • 不含税费 | 含运费
  • 2022-03-04
查看价格

数据可视化——从小白到数据工程师的成长之路内容简介

掌握数据可视化技术是未来工作和学习的必备能力,是展示理念和成果的重要手段。阅读并完成本书的实践,你将快速地学会数据获取、清洗、分析、可视化及发布的完整流程。本书以丰富的实践案例解析数据可视化的制作理念和具体方法,紧密围绕当前数据可视化领域的实际需求,全面介绍数据可视化的概念和技巧。本书包含基础知识、数据获取、数据清洗、数据分析、可视化基础和原则、数据可视化工具和可视化作品发布等内容,基于具体案例多角度启发和引导读者的创新思维,增强读者对抽象数据的把握及综合可视化能力的提升。本书内容通俗易懂,简明实用,配套的教学辅助资料可免费下载。本书适合零编程基础的数据可视化从业者和高校师生阅读,有一定工作经验的数据可视化工程师也可以从本书中学到大量实用的技能。

查看详情

数据可视化——从小白到数据工程师的成长之路常见问题

查看详情

数据可视化——从小白到数据工程师的成长之路文献

地质勘探工程数据模型的可视化研究 地质勘探工程数据模型的可视化研究

地质勘探工程数据模型的可视化研究

格式:pdf

大小:240KB

页数: 3页

详细介绍了地质勘探工程现象分析、地质勘探工程几何对象与空间维特征分析、地质勘探工程数据获取及地质勘探工程斜测资料计算,在此基础上,提出了地质勘探工程数据结构及算法实现,最后使用面向对象方法和OpenGL技术开发了供本文研究专用的试验软件系统。

基于数据智能可视化分析的滑坡信息化施工研究 基于数据智能可视化分析的滑坡信息化施工研究

基于数据智能可视化分析的滑坡信息化施工研究

格式:pdf

大小:240KB

页数: 5页

采用信息化施工技术进行大型滑坡整治,既安全又经济。笔者探讨了基于大量监测数据处理为核心的信息化施工技术。采用数据可视化技术对大型滑坡巨大数据进行分析处理,确定了滑动面位置、滑动方向和对滑坡进行危险性分区。将支持向量机方法用于预测滑坡变形。将智能和可视化分析结果用于滑坡动态优化设计中,并用一个实际工程实例论述了方法的思路。

大数据的价值之路&数据价值之路的几个里程碑

 

大数据的4V并不在一个层面

讲起大数据,首先的印象就是《大数据时代》这本书中的提出的4V, 海量的数据规模(volume)、快速的数据流转和动态的数据体系(velocity)、多样的数据类型(variety)和巨大的数据价值(value)。

前三个V直接描述了数据本身的特征, 大数据业界无数的公司推出了各种存储和数据处理的解决方案以应对大数据带来的技术挑战, 初期的淘金者赚的盆满钵溢,留下了大量存满数据的机房。可是说好的价值呢?

最后一个V实现的并不理想。

以业界最为闻名遐迩的Palantir公司为例,他的founder是大名鼎鼎的硅谷投资创业教父,paypal创始人彼得.蒂尔。它第一个客户和最大的客户是美国中央情报局CIA,协助反恐。据说正是依靠他们的协助,CIA找到了本的踪迹。Palantir 为此声名大噪。其最新一轮融资4.5亿美元,公司估值在200亿美元,是仅次于uber, airbnb和小米的创业公司。

可是最近的一些爆料Palantir的一系列问题。去年有至少3个重要客户终止了合同,包括可口可乐,america express, 和纳斯达克。这些客户一方面抱怨公司收费太高,会高达100万美元每个月,感觉远远不值得。而且客户和公司的年轻工程师合作起来非常头疼。

Palantir公司上次宣布去年全年的预约价值17亿美元,但是实际上最后的收入只有4.5亿美元。预约价值是客户可能要支付的费用,包括很多试用期,免费用户的合同价值。这两个数据的巨大差距说明很少一部分客户最后变成了付费用户。

Palantir公司情况恰恰彰显了大数据巨大数据价值获取并不容易。

大数据中的确隐藏着大量价值,但价值的实现不在于数据分析本身,而在于数据与业务场景的碰撞。

 

Palantir的数据实践中面临的几个问题:

1.数据的价值和行业场景紧密相关, Palantir擅长抓坏人, 通过大量的数据关联,发现业务中的异常,进而通过异常的控制实现数据的价值, 这样的场景在安全,金融等领域比较适合, 但当推广到其它场景的时候,效果往往差强人意。深度行业场景的介入往往需要对行业的深度介入, 成本高, 周期长。

2.数据及分析人员本身也是成本, 大数据获取成本, 数据科学家的高额成本,分析工作失败的机会成本,还有数据价值的体现程度。这些都对大数据项目产生直接影响, 这些成本与价值比能否控制在一定范围,长期看来,成本是否有线性下降的预期也是企业决策关键因素。

3.工程师的技能与思维能力,数据科学家培养及留住不易, 年轻工程师的培养,学习曲线和成本都是需要考虑的点。

 

数据价值之路的几个里程碑

Gartner有一个非常简单和清晰的数据分析和难度的划分模式从数据分析的难度到数据价值的实现给出了4个层面的定义。这四个层面的定义也非常适合被看作是我们数据价值探索上的4个里程碑。

描述(Descriptive),解决什么发生的分析,是相对简单的分析。 描述性的分析通常需要把大数据沉淀成为更小的,更高价值的信息,通过汇总来对一个已经发生了事件的提供洞察和报告。

诊断(Diagnostic),在事件数据描述的基础上, 提供对原因的深度分析, 通常需要更多维度的数据, 更长时间的数据跨度, 通过关联分析发现事件与数据之间的关联关系。

预测(Predictive),预测性分析通过一系列的统计,建模,数据挖掘和机器学习等技术来学习近期和历史数据, 帮助分析师对未来做一定的预测。

规范分析(Prescriptive),规范性分析突破了分析并扩展到执行阶段, 结合了预测,部署, 规则,多重预测,评分,执行和优化规则, 最终形成一个闭环的决策管理能力。

过去的实践表明,75%以上的数据分析场景是描述性的分析,大部分企业已经建立的数据仓库和BI系统都可以归于这一场景,日常运营报告,运营仪表盘, 驾驶指挥舱等都属于这一类的应用的实现。 诊断和预测类分析应用则更多使用在推荐, 运营异常分析等特定场景中, 使用的范围较小, 效果参差不齐。而规范分析的场景直接打通了分析与执行,目前主要是体现在自动驾驶, 机器人等更为特定业务场景中。在商业环境中, 数据的价值需要的不仅仅是分析, 真正的价值是通过数据分析后的业务决策和业务执行获得的。

笔者用下面的这张图来描绘数据的价值之路, 越是向右,数据体现的业务价值指数越高, 体现的业务价值越高。

图中浅绿和深绿的部分是大量的人工参与过程, 帮助对前面数据分析的过程和结果进行进一步的人工处理和加工。在过去IT主导的时代这两个部分往往由IT部门承担,被业务需求驱动,实施的效果不好,还往往成为业务部门诟病的对象。大数据时代,业务部门深度参与,逐渐成为数据的主要使用者和创新者,通过数据分析,业务人员解读,丰富,判断,决策,并最终完成执行的闭环,实现数据的价值化。

TalkingData作为一家领先的大数据价值的践行者, 正是基于这一思路设置了自己的能力版图: 在几年的发展过程中,实现了海量数据的积累; 统计分析,运营分析,广告监测,DMP一系列工具平台进一步实现了描述,诊断,预测类分析的技术实现; 创新建立的专业数据咨询团队为核心客户贴身服务,辅助企业利用大数据进行业务决策,为企业的大数据创新保驾护航;最近一年,TalkingData正在逐步打造开放的数据生态, 为客户带来更为广泛的数据价值。

查看详情

大数据的可视化工具

如今,面对海量的生物数据集,人们往往感到束手无策。然而,这些TB级的数据有望带来新的假说、新的药物靶点,以及对生物系统的更彻底了解。数据可视化在其中扮演着至关重要的作用。在一期《BioTechniques》杂志上,Sarah Webb博士探讨了数据可视化的挑战和能力。

大数据是一个美好的概念。不过随着生物数据集的增长和变化,可视化研究人员正面临持续的挑战。哈佛医学院的Nils Gehlenborg表示,问题在于数据的规模和异质性。人类基因组包含数十亿个碱基,研究人员希望从染色体、基因甚至碱基对水平来查看。此外,还有其他类型的关联数据,比如癌症患者的性别、年龄、肿瘤类型等。

 

浏览基因组

在线的基因组浏览器可以帮助研究人员探索数据、寻找模型,并建立假说。目前有许多这样的工具,每个在功能上稍有不同。加州大学圣克鲁兹分校分校(UCSC)的Genome Browser2000年上线,是探索人类基因组、各种脊椎动物的基因组以及其他模式生物基因组的工具。

Genome Browser中,染色体上的单个基因显示为分散的刻度线。当用户放大基因,他们可看到不同的异构体,了解它是如何剪接的。较深的颜色表示这些异构体获得更多实验证据的支持,框代表外显子,而箭头表示转录方向。再进一步放大,深色和浅色的条纹显示特定密码子的位置。

此外,基于UCSCGenome Browser,人们也开发出更多的工具。比如,Ting WangUCSC攻读博士后时领导了一个拆分项目,最终开发出UCSC Cancer Genomics Browser。之后他来到华盛顿大学,开始构建表观基因组浏览器VizHub。它目前拥有大约25,000个表观遗传学数据集。

 

探索蛋白质组

据比利时根特大学的Lennart Martens介绍,蛋白质组学也面临可视化的挑战。与基因组学数据库类似,质谱数据库是一个潜在的宝库,有望发现新的相互作用,并产生新的假说。他估计,欧洲生物信息学研究所的PRIDE数据库大约包含10亿个质谱数据,其中70%是未确定的。

Martens是一名生物信息学家,他的工作主要集中在蛋白质组学,最近也在代谢组学。他试图找到更好的方法,来表示新生成的质谱数据,以及那些公开的数据。他承认,以直观的方式浓缩分子碎片的各种组合是比较困难的。我们也不总是成功,他说,你不能无限浓缩这一信息。

可视化工具的开发可能需要很长的时间。研究人员必须了解用户及其需求,还需要了解数据集以及数据的潜在关系。有时,相互理解就需要许多回合的讨论。对于计算机背景的研究人员来说,生物学可能太过混乱。

此外,尽管数据可视化相当重要,但大多数研究人员没有接受过这一方面的培训。他们可能无法理解某些类型的图像,如气泡图和雷达图。Martens认为,这个问题只能通过培训来解决。在这篇文章中,加拿大基因组科学中心的Martin Krzywinski就数据可视化提出了几点建议,可帮助大家美化。

查看详情

枯燥的大数据如何呈现为可视化的图?

将数据转化成可视化图表/形,其实一个工具就能完成,碍于工具太多,按照使用场景,暂且将已成熟应用的分为三个层次:

第一层:数据报告、信息图

这里统称信息图。信息图是把数据、信息或知识可视化,必须要有一个清楚准确的解释或表达甚为复杂且大量的信息。

代表人物是新闻界的David McCandless(大卫. 麦克坎德雷斯),曾为《英国卫报》、《连线》、《独立报》等刊物撰稿。常以简洁精美的图像展现复杂抽象资讯,并将不同的数据组合,展现其中的联系。他在TED上曾讲过:

可视化并不局限于数字,概念也同样适用,比如政治倾向图谱。我试图将各种政治倾向融入到图表中,并展示其如何从政府渗透到社会、文化中,对家庭和个人产生影响,继而又反过来影响政治。

比如用图形来表示数值

视线流动,构建时空

信息图的制作:

利用PPT自带的图表,可以制作简洁直观的数据图表,但附上人文花鸟就需要美工设计;

PS+AI+icon,前期规划好表达思路、展示内容、所需素材,之后便大刀阔斧动工组件了。图表的细节,如柱状图的长短依据数据大概等比例量一下。

这一类对数据的维度数量要求都不高,运用的大多是结果数据,侧重点也在于展示。

 

第二层:实际数据应用

应用类的可视化正如上面所说的,将一堆几百到即使几百万不等的数据展示、分析。对于企业,因为这些数据本身是自己生产经营过程中产生的,能反映历史的状况,总结发展之道,对目前的问题或者未来下一步的决策起到辅助作用。

这样的工具excel能解决,报表工具能解决,BI也能解决,具体细化到什么样的场景不是这里的重点,大家可以在下面评论交流。

通常的制作流程是:导入数据(excel/连接数据库(本地/服务器)——选择图表(组合)——设定分析维度——美化展示。比如像这种浓浓的带有商业味道的可视化报表(由FineReport制作)

 

当然,这样功力的可视化报表需要一定的审美和熟练操作。图中每一块都是一个图表控件,在表单(dashboard)中拖入一个图表控件,选定数据字段,然后搭配组合,排布版型。

 

第三层:据挖掘、数据连接、关系传递

这个可以理解为从海量数据中挖掘关系。

大致思路:原始数据经过一连串收集、提取、清洗、整理等预处理过程,形成高质量的数据。然后按照需要对数据贴标签分类或者预测,如果要从大量复杂的数据中提取有价值且不易发现的信息还要数据建模。(细节可能各有不同)

比较适用的是一写高级的数据分析挖掘工具以及开源图表控件,如R,如D3

R做可视化,比较容易做出漂亮的可视化图表,推荐书籍R Graphics Cookbook,书中有150多个recipes,足够应付大多类型的数据。

D3做图可以定制,美观图图表的丰富性秒杀大多图表控件,但要求的水平有一丢丢高。

最后,再次引用David McCandless的话“炫酷的可视化对于把思想传递给大众又是至关重要的”,切勿一味追求美感,本末倒置。

查看详情

相关推荐

立即注册
免费服务热线: 400-888-9639