本文章主要介绍大数据的基本概念。
Quick Guide
什么是数据
计算机执行中操作的字符或符号,可以以电信号的形式存储和传输,并记录在磁、光或机械记录介质上。
什么是大数据
大数据是数量巨大且随时间呈指数增长的数据集合。此类数据是如此庞大和复杂,以至于传统的数据管理工具都无法对其进行存储或有效处理。
大数据示例
- 在 纽约股票交易所 产生约 一兆兆字节 每天新的贸易数据。
- 统计数据显示,每天有 500 TB 以上的新数据被摄入社交媒体网站 Facebook 的数据库中 。这些数据主要通过照片和视频上传,消息交换,发表评论等方式生成。
- 单个 Jet 引擎 可以在 30分钟 的飞行时间内生成 10 TB 以上的数据 。每天有成千上万的航班,因此数据生成量可达 PB级。
大数据类型
结构化的
可以以固定格式存储,访问和处理的任何数据称为结构化数据。关系数据库管理系统中存储的 数据是 “结构化”数据的一个示例 。
数据库中的“雇员”表是结构化数据的示例
员工ID | 员工姓名 | 性别 | 部门 | Salary_In_lacs |
---|---|---|---|---|
2365 | 拉杰什·库尔卡尼(Rajesh Kulkarni) | 男 | 金融 | 650000 |
3398 | Pratibha Joshi | 女 | 管理员 | 650000 |
7465 | 舒希尔·罗伊 | 男 | 管理员 | 500000 |
7500 | Shubhojit Das | 男 | 金融 | 500000 |
7699 | 普里亚·桑(Priya Sane) | 女 | 金融 | 550000 |
非结构化
任何形式或结构未知的数据都归为非结构化数据。非结构化数据的典型示例是包含简单文本文件,图像,视频等的组合的异构数据源。 非结构化数据的示例如下图:
半结构化
半结构化数据可以包含两种形式的数据。我们可以将半结构化数据看作是结构化的形式,但实际上它不是通过例如关系型数据库中的表来定义的。半结构化数据的示例如下图:
1 | <rec> <name>闷闷不乐</ name> <sex>男</ sex> <age> 35 </ age> </ rec> |
大数据的特征
- 大量: 随着信息技术的高速发展,数据开始爆发性增长,存储单位从早期的KB和MB,到后面的GB到TB,乃至现在的PB、EB级别。
- 多样性 : 广泛的数据来源决定了大数据形式的多样性。在早期,电子表格和数据库是大多数应用程序考虑的唯一数据源。如今,分析应用程序中还考虑了电子邮件、照片、视频、监视设备、PDF和音频等形式的数据。各种各样的非结构化数据给存储,挖掘和分析数据带来了某些问题。
- 高速: 大数据的产生非常迅速,主要通过互联网传输,需要数据的生成和处理速度可以满足需求。生活中每个人都离不开互联网,也就是说每天每个人都在向大数据提供大量的资料。并且这些数据是需要及时处理的,因为花费大量资本去存储作用较小的历史数据是非常不划算的,对于一个平台而言,也许保存的数据只有过去几天或者一个月之内,再远的数据就要及时清理,不然代价太大。基于这种情况,大数据对处理速度有非常严格的要求,服务器中大量的资源都用于处理和计算数据,很多平台都需要做到实时分析。数据无时无刻不在产生,谁的速度更快,谁就有优势。
- 价值: 现实世界所产生的数据中,有价值的数据所占比例很小。相比于传统的小数据,大数据最大的价值在于通过从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,发现新规律和新知识,并运用于农业、金融、医疗等各个领域,从而最终达到改善社会治理、提高生产效率、推进科学研究的效果。
大数据处理的优势
- 企业可以在决策时利用外部情报
- 改善客户服务
- 及早发现产品和服务的风险
- 更高的运营效率