基本项目流程:
数据生产 → 数据采集 → 数据存储 → 数据预处理 → 数据计算 → 结果数据存储 → 结果数据展现基本特征
大容量(海量化)
即数据巨大从TB跃升PB
多样化
数据类型繁多,结构化,半结构化,非结构化
快速
数据增长速率快,计算处理速度也快,时效性要求高
真实性
数据的准确性和可信赖性,既数据的质量
数据价值密度低
低成本创造高价值
大数据应用领域:全领域
- 查询: 在几分钟内,在交通摄像记录中查找近几个月内,某车票在全国范围内的行驶轨迹 - 分析: 全世界近五十年,各城镇的每小时气温变化原因 - 预测: 一分钟内,显示从北京到拉萨,考虑所有可能发生的情况(自然灾害,公路维护等)后,最佳的路线(驾车,火车,航班,大巴等)大数据相比传统数据为什么快
纵向扩展: 通过提升单个系统的处理能力解决问题,通常是为系统提供更强大的软件 横向扩展: 通过增加服务器的数量,通过负载平衡等技术,让多台服务器构成一个集群,同时计算 资源集中: 集中式计算:数据计算几乎完全依赖一台中,大行的中心计算机的处理能力 集中式存储:数据完全存储到一个数据库中,并围绕他进行增删查改等组织操作 分布式: 分布式计算:一种计算方法,将应用分解成很多小部分,分配给多台服务器进行计算,节约时间,提高效率 分布式存储:一种存储技术,通过网络使用多台机器的磁盘空间,使分散的存储资源构成一个虚拟的存储设备,数据分散在多台服务器数据快的原因:
分布式存储分布式并行计算移动程序到数据端更前卫.更先进的实现思路更先进的硬件和软件技术更细分的业务场景