大数据意味着真正的大数据,它是大数据集的集合,不能使用传统的计算技术来处理。大数据不仅仅是一个数据,它已经成为一个完整的主题,涉及各种工具,技术和框架。
不能使用一台机器进行处理的数据
1.数据分布在多台机器
可靠性:每个数据块都复制到多个节点
性能:多个节点同时处理数据
2.计算随数据走
网络IO速度 << 本地磁盘IO速度,大数据系统会尽量地将任务分配到离数据最近的机器上运行(程序运行时,将程序及其依赖包都复制到数据所在的机器运行)
代码向数据迁移,避免大规模数据时,造成大量数据迁移的情况,尽量让一段数据的计算发生在同一台机器上
3.串行IO取代随机IO
传输时间 << 寻道时间,一般数据写入后不再修改
大数据涉及由不同设备和应用程序产生的数据。下面是大数据领域的一些领域。
黑匣子数据 :它是直升机,飞机和喷气机等的组件。它捕捉飞行机组的声音,麦克风和耳机的录音,以及飞机的性能信息。社会媒体数据 :Facebook和Twitter等社交媒体保存着全球数百万人发布的信息和观点。证券交易所数据 :证券交易所数据保存关于由客户在不同公司的份额上做出的“买入”和“卖出”决定的信息。电网数据 :电网数据保持特定节点相对于基站消耗的信息。运输数据 :运输数据包括车辆的型号,容量,距离和可用性。搜索引擎数据 :搜索引擎从不同的数据库检索大量数据。因此,大数据包括大量,高速度和可扩展的数据。
转载于:https://www.cnblogs.com/minniei/p/10612857.html
相关资源:JAVA上百实例源码以及开源项目