2024年1月10日发(作者:竹茗雪)
龙源期刊网
拥抱开源,联想大数据产品的技术创新与突破
作者:张成松
来源:《软件和集成电路》2018年第07期
联想大数据平台主要包含行业智能应用平台、数据智能平台、大数据计算平台以及物联网采集与边缘计算和IT系统数据整合等。而物联网的采集和边缘技术的产品,可以把企业传统的IT系统进行整合,并统一放到大数据平台和数据库中。当数据进来以后,大数据平台就可以进行数据存储、计算、构建分布式计算框架和统一调度。在其之上就是数据智能平台,该平台可以把企业的预测、优化以及挖掘,通过预测库、优化库、知识库的形式,制定行业模型。
在最上一层的行业智能应用平台上,我们就可以给一些企业做各种行业解决方案。对于联想大数据平台而言,我们还添加了制作软、硬件的安全产品和数据资源管理平台。为什么要提数据资产管理?我们本身做的是开源组件,没有对数据目录和数据访问权限方面进行很好的管理,所以我们添加了数据资源管理模式,在数据资源管理之上就是第三方智慧集成平台。在我们自主开发的产品中,我们利用开源技术,包括在Spark和Hadoop基础上进行大量的优化工作,并自主开发了很多工具,包括边缘计算和数据集成工具等。在联想大数据平台,我们也广泛应用了开源技术,不管是在数据采集存储、数据管理、数据分析上,还是用算法平台或者可视化技术,在我们的产品中,都有开源技术的身影。
我们在产品中运用了很多开源组件和平台技术,那么基于这些组件和平台,我们在大数据产品中有哪些技术的创新和突破?用大数据平台支持传统数据仓库的应用场景,那么需要什么样的应用场景呢?就是传统的企业可能需要大量的数据存储、数据计算以及各种管理系统,而这些数据都会存在数据库中,当数据量越来越大时,数据库已经无法满足使用者的需要。这时企业就想把自身的数据迁移到Hadoop中,但是Hadoop不支持数据存储。若要解决此问题,就得投入大量成本,推翻原有系统开发新型系统,这对企业来说是一种损失。
所以把Hadoop的功能进行增强,使Hadoop支持所有数据仓库,这样企业可以将自身的原有系统,迁移到Hadoop和大数据生态链中来避免损失。怎么实现大数据支持传统数仓的场景?当用户将大数据输入到数据仓库后,要对语法进行识别,之后我们将识别出的语法进行解析,最后将解析模块放入执行系统的子系统中,最终实现该场景。对于这一运行结果,我们还做了一项工作,解决数据倾斜的问题。Spark系统在工作中,会出现数据倾斜问题。当我们识别到有数据倾斜的任务时,我们会将数据拆分成一个个小任务,用分布式的方法执行。我们对Spark数据倾斜进行测试时发现,当开启Spark数据倾斜组件时,至少能提升6.5倍的性能,如果不开启,运行速度则会大大降低。另外我们解决了跨集群数据计算和访问的问题。联想在全球有十个计算中心,每个计算中心会存储一部分的业务数据,当北京的用户执行了查询任务时,会把请求发到北京集群中,而集群会把世界各地的数据融合后进行计算。这个时候就会遇到Spark、Hadoop访问集群的情况。假设有A集群和B集群,当A接受请求任务时,会识别
2024年1月10日发(作者:竹茗雪)
龙源期刊网
拥抱开源,联想大数据产品的技术创新与突破
作者:张成松
来源:《软件和集成电路》2018年第07期
联想大数据平台主要包含行业智能应用平台、数据智能平台、大数据计算平台以及物联网采集与边缘计算和IT系统数据整合等。而物联网的采集和边缘技术的产品,可以把企业传统的IT系统进行整合,并统一放到大数据平台和数据库中。当数据进来以后,大数据平台就可以进行数据存储、计算、构建分布式计算框架和统一调度。在其之上就是数据智能平台,该平台可以把企业的预测、优化以及挖掘,通过预测库、优化库、知识库的形式,制定行业模型。
在最上一层的行业智能应用平台上,我们就可以给一些企业做各种行业解决方案。对于联想大数据平台而言,我们还添加了制作软、硬件的安全产品和数据资源管理平台。为什么要提数据资产管理?我们本身做的是开源组件,没有对数据目录和数据访问权限方面进行很好的管理,所以我们添加了数据资源管理模式,在数据资源管理之上就是第三方智慧集成平台。在我们自主开发的产品中,我们利用开源技术,包括在Spark和Hadoop基础上进行大量的优化工作,并自主开发了很多工具,包括边缘计算和数据集成工具等。在联想大数据平台,我们也广泛应用了开源技术,不管是在数据采集存储、数据管理、数据分析上,还是用算法平台或者可视化技术,在我们的产品中,都有开源技术的身影。
我们在产品中运用了很多开源组件和平台技术,那么基于这些组件和平台,我们在大数据产品中有哪些技术的创新和突破?用大数据平台支持传统数据仓库的应用场景,那么需要什么样的应用场景呢?就是传统的企业可能需要大量的数据存储、数据计算以及各种管理系统,而这些数据都会存在数据库中,当数据量越来越大时,数据库已经无法满足使用者的需要。这时企业就想把自身的数据迁移到Hadoop中,但是Hadoop不支持数据存储。若要解决此问题,就得投入大量成本,推翻原有系统开发新型系统,这对企业来说是一种损失。
所以把Hadoop的功能进行增强,使Hadoop支持所有数据仓库,这样企业可以将自身的原有系统,迁移到Hadoop和大数据生态链中来避免损失。怎么实现大数据支持传统数仓的场景?当用户将大数据输入到数据仓库后,要对语法进行识别,之后我们将识别出的语法进行解析,最后将解析模块放入执行系统的子系统中,最终实现该场景。对于这一运行结果,我们还做了一项工作,解决数据倾斜的问题。Spark系统在工作中,会出现数据倾斜问题。当我们识别到有数据倾斜的任务时,我们会将数据拆分成一个个小任务,用分布式的方法执行。我们对Spark数据倾斜进行测试时发现,当开启Spark数据倾斜组件时,至少能提升6.5倍的性能,如果不开启,运行速度则会大大降低。另外我们解决了跨集群数据计算和访问的问题。联想在全球有十个计算中心,每个计算中心会存储一部分的业务数据,当北京的用户执行了查询任务时,会把请求发到北京集群中,而集群会把世界各地的数据融合后进行计算。这个时候就会遇到Spark、Hadoop访问集群的情况。假设有A集群和B集群,当A接受请求任务时,会识别