大数据基本理论
大数据的技术特点
- Volume(大体量)
- Variety(多样性)
大数据包括各种格式和形态的数据
- Velocity(时效性)
很多大数据需要保证在一定的时间限度下得到及时处理。
Veracity(准确性)
处理的结果要保证一定的准确性
Value(大价值)
大数据包含很多深度的价值,大数据分析挖掘和利用将带来巨大的商业价值。
大数据的类型与计算特征
[ ] 从数据结构特征的角度看
大数据可分为结构化、非结构化、半结构化数据
[ ] 从数据获取处理方式来看
大数据可分为批处理与流式计算方式
[ ] 从数据处理类型来看
大数据可分为传统的查询分析计算和复杂数据挖掘计算
[ ] 从大数据处理响应来看
可分为实时/准实时与非实时计算。或者是联机计算与线下计算。
[ ] 从数据关系来看
可分为简单关系数据(如web日志)和复杂关系数据(如社会网络等具有复杂数据关系的图计算)
[ ] 从迭代计算角度来看
[ ] 从并行计算体系结构特征来看
集群的分布式存储、与并行计算体系结构和硬件平台。 内存计算。
大数据研究的主要目标、基本原则和基本途径
主要目标
以有效的信息技术手段和计算方法,获取、处理和分析各种应用行业的大数据,发现和提取数据的深度价值,为行业提供高附加值的应用和服务。因此,大数据研究的核心目标是价值发现,而其技术手段是信息技术和计算方法,其效益目标是为行业提供高附加值的应用和服务。
基本特点
1)具有很强的行业应用需求特性,因此大数据技术研究必须紧扣行业应用需求
2)大数据规模极大,超过任何传统数据库的处理能力
3)处理技术综合性强,任何单一层面的计算技术都能以提供理想的解决方案,需要采用综合性的软硬件技术才能有效处理
4)大数据处理时,大多传统算法都面临失效,需要重写。
基本原则
1)应用需求为导向:从行业实际的应用需求和存在的技术难题入手,研究解决有效的处理技术和解决方案。
2)领域交叉为桥梁:大数据技术研究和应用开发需要开发人员、数据分析师、具备专业知识的领域专家相互配合和协同,促进应用行业、IT产业与计算技术研究机构的交叉融合,来提供良好的大数据解决方法。
3)技术综合为支撑
基本途径
1)寻找新算法降低计算复杂度。
2)寻找和采用降低数据尺度的算法。在保证结果精度的前提下,用数据抽样或者数据尺度无关的近似算法来完成大数据的处理
3)分而治之的并行化处理。
大数据计算模式和系统
大数据计算模式,是指根据大数据的不同数据特征和计算特征,从多样性的大数据计算问题和需求中提炼并建立的各种高层抽象(Abstraction)和模型(Model)。传统的并行计算方法主要从体系结构和编程语言的层面定义了一些较为底层的抽象和模型。但由于大数据处理问题具有很多高层的数据特征和计算特征,因此大数据处理需要更多地结合其数据特征和计算特性考虑更为更为高层的计算模式。
大数据计算框架底层需要自动完成的处理:
(1)计算任务的自动划分和调度。
(2)数据的自动化分布存储或划分
(3)处理数据与计算任务的同步
(4)结果数据的收集整理(sorting,combining,partitioning,等)
(5)系统通信、负载平衡、计算性能优化处理
(6)处理系统节点出错检测和失效恢复