一、大数据的概念:
大数据
"
是一个体量特别大,数据类别特别大的数据集,并且这样的数据集
无法用传统数据库工具对其内容进行抓取、管理和处理。
"
大数据
"
首先是指数
据体量
(volumes)?
大,指代大型数据集,一般在
10TB?
规模左右,但在实际应用
中,很多企业用户把多个数据集放在一起,已经形成了
PB
级的数据量;其次是
指数据类别
(variety)
大,数据来自多种数据源,数据种类和格式日渐丰富,已冲
破了以前所限定的结构化数据范畴,
囊括了半结构化和非结构化数据。
接着是数
据处理速度(
Velocity
)快,在数据量非常庞大的情况下,也能够做到数据的实
时处理。最后一个特点是指数据真实性(
Veracity
)高,随着社交数据、企业内
容、
交易与应用数据等新数据源的兴趣,
传统数据源的局限被打破,
企业愈发需
要有效的信息之力以确保其真实性及安全性。
二、大数据的五个基本方面
1
、可视化分析:
大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者
对于大数据分析最基本的要求就是可视化分析,
因为可视化分析能够直观的呈现
大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。
2
、数据挖掘算法:
大数据分析的理论核心就是数据挖掘算法,
各种数据挖掘的算法基于不同的
数据类型和格式才能更加科学的呈现出数据本身具备的特点,
也正是因为这些被
全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,
挖掘出公认的价值。
另外一个方面也是因为有这些数据挖掘的算法才能更快速的
处理大数据,
如果一个算法得花上好几年才能得出结论,
那大数据的价值也就无
从说起了。
3
、预测性分析能力
大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特
点,
通过科学的建立模型,
之后便可以通过模型带入新的数据,
从而预测未来的
数据。
世界杯期间微软和百度、
阿里云等大数据公司就进行了准确的预测那支球
队的输赢,几乎每次都能成功。
4
、语义引擎
大数据分析广泛应用于网络数据挖掘,
可从用户的
搜索关键词、
标签关键词、
或其他输入语义,分析,判断用户需求,从而实现更好的用户体验和广告匹配。
5
、数据质量和数据管理:
大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,