其实关于大数据的冷知识的问题并不复杂,但是又很多的朋友都不太了解关于大数据的冷知识有哪些,因此呢,今天小编就来为大家分享关于大数据的冷知识的一些知识,希望可以帮助到大家,下面我们一起来看看这个问题的分析吧!
本文目录
大数据技术涉及:数据的采集、预处理、和分布式存储、以及数据仓库、机器学习、并行计算和可视化等方面。
对于大数据技术,应用广泛的是以hadoop和spark为核心的生态系统。hadoop提供一个稳定的共享存储和分析系统,存储由hdfs实现,分析由mapreduce实现,
1、hdfs:Hadoop分布式文件系统,运行与大型商用机集群
hdfs是gfs的开源实现,提供了在廉价服务器集群中进行大规模分布式文件存储的能力。
2、hbase:分布式的列存储数据库。hbase将hdfs作为底层存储,同时支持mapreduce的批量计算和点查询(随机读取)
hbase是一个建立在hdfs之上,面向列的nosql数据库。它可用于快速读写大量数据,是一个高可靠、高并发读写、高性能、面向列、可伸缩和易构建的分布式存储系统。hbase具有海量数据存储、快速随机访问和大量写操作等特点。
在kudu出现之前,hadoop生态环境的存储主要依赖hdfs和hbase。在追求高吞吐、批处理的场景中,使用hdfs,在追求低延时且随机读取的场景中,使用hbase,而kudu正好能兼容这两者。
3、批处理计算的基石:mapreduce
批处理计算主要解决大规模数据的批量处理问题,是日常数据分析中常见的一类数据处理需求。业界常用的大数据批处理框架有mapreduce\spark\tez\pig等。其中mapdeduce是比较有影响力和代表性的大数据批处理计算框架。它可以并发执行大规模数据处理任务,即用于大规模数据集(大于1tb)的并行计算。mapreduce的核心思想:将一个大数据集拆分成多个小数据集,然后在多台机器上并行处理。
4、hive:分布式数据仓库,管理hdfs中存储的数据,并提供基于sql的查询语言用于查询数据
1.什么是大数据
大数据是一个大的数据集合,通过传统的计算技术无法进行处理。这些数据集的测试需要使用各种工具、技术和框架进行处理。大数据涉及数据创建、存储、检索、分析,而且它在数量、多样性、速度方法都很出色,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
2.大数据测试类型
测试大数据应用程序更多的是验证其数据处理,而不是测试软件产品的个别功能。当涉及到大数据测试时,性能和功能测试是关键。处理可以是三种类型:
批量
实时
交互在测试应用程序之前,有必要检查数据的质量,并将其视为数据库测试的一部分。它涉及检查各种字段,如一致性,准确性,重复,一致性,有效性,数据完整性等。
3.容错性测试
可从部分失效中自动恢复,而且不会验证的影响整体性能,特别地,当故障发生时,大数据分析系统应该在进行恢复的同时继续以可接受的方式进行操作,在发生错误时某种程度上可以继续操作,需根据应用场景来设计解决方案和具体部署,然后手动测试。
4.可用性测试
高可用性已是大数据分析不可或缺的特性之一,从而保证数据应用业务的连续性.大数据高可用性对很多应用非常关键,需要严格进行测试和验证,以手动测试为主。
5.扩展性测试
弹性扩展能力对于大数据时代的文件系统尤其重要,文件系统扩展性测试主要包括测试系统弹性扩展能力(扩展/回缩)及扩展系统带来的性能影响,验证是否具有线性扩展能力,以手动测试为主。
6.稳定性测试
大数据分析系统通常是不间断长期运行,稳定性的重要性不言而喻,稳定测试主要验证系统在长时间(7/30/180/365*24)允许下,系统是否仍然能够正常运行,功能是否正常.稳定性测试通常采用自动化方式进行,LTP,10ZONE,POSTMARK,FIO等工具对测试系统产生负载,同时需要验证功能。
大数据的基础知识,应当包括以下几方面。
一是大数据的概念。
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产。
二是大数据主要解决的问题。解决的主要问题有海量数据的存储,分析计算,统一资源管理调度。
三是大数据的特点。
特点主要有,数据量越来越大,数据量增长越来越快,数据的结构多种多样,价值密度的高低与数据总量大小成正比。
四是大数据应用场景。
包括物流,仓储,零售,旅游,推荐,保险,金融,房地产,人工智能。以及大数据部门组织结构等等。
END,本文到此结束,如果可以帮助到大家,还望关注本站哦!