拥抱开源,联想大数据产品的技术创新与突破-USB迷|专注于互联网分享

2024年1月10日发(作者：竹茗雪)

龙源期刊网

拥抱开源，联想大数据产品的技术创新与突破

作者：张成松

来源：《软件和集成电路》2018年第07期

联想大数据平台主要包含行业智能应用平台、数据智能平台、大数据计算平台以及物联网采集与边缘计算和IT系统数据整合等。而物联网的采集和边缘技术的产品，可以把企业传统的IT系统进行整合，并统一放到大数据平台和数据库中。当数据进来以后，大数据平台就可以进行数据存储、计算、构建分布式计算框架和统一调度。在其之上就是数据智能平台，该平台可以把企业的预测、优化以及挖掘，通过预测库、优化库、知识库的形式，制定行业模型。

在最上一层的行业智能应用平台上，我们就可以给一些企业做各种行业解决方案。对于联想大数据平台而言，我们还添加了制作软、硬件的安全产品和数据资源管理平台。为什么要提数据资产管理？我们本身做的是开源组件，没有对数据目录和数据访问权限方面进行很好的管理，所以我们添加了数据资源管理模式，在数据资源管理之上就是第三方智慧集成平台。在我们自主开发的产品中，我们利用开源技术，包括在Spark和Hadoop基础上进行大量的优化工作，并自主开发了很多工具，包括边缘计算和数据集成工具等。在联想大数据平台，我们也广泛应用了开源技术，不管是在数据采集存储、数据管理、数据分析上，还是用算法平台或者可视化技术，在我们的产品中，都有开源技术的身影。

我们在产品中运用了很多开源组件和平台技术，那么基于这些组件和平台，我们在大数据产品中有哪些技术的创新和突破？用大数据平台支持传统数据仓库的应用场景，那么需要什么样的应用场景呢？就是传统的企业可能需要大量的数据存储、数据计算以及各种管理系统，而这些数据都会存在数据库中，当数据量越来越大时，数据库已经无法满足使用者的需要。这时企业就想把自身的数据迁移到Hadoop中，但是Hadoop不支持数据存储。若要解决此问题，就得投入大量成本，推翻原有系统开发新型系统，这对企业来说是一种损失。

所以把Hadoop的功能进行增强，使Hadoop支持所有数据仓库，这样企业可以将自身的原有系统，迁移到Hadoop和大数据生态链中来避免损失。怎么实现大数据支持传统数仓的场景？当用户将大数据输入到数据仓库后，要对语法进行识别，之后我们将识别出的语法进行解析，最后将解析模块放入执行系统的子系统中，最终实现该场景。对于这一运行结果，我们还做了一项工作，解决数据倾斜的问题。Spark系统在工作中，会出现数据倾斜问题。当我们识别到有数据倾斜的任务时，我们会将数据拆分成一个个小任务，用分布式的方法执行。我们对Spark数据倾斜进行测试时发现，当开启Spark数据倾斜组件时，至少能提升6.5倍的性能，如果不开启，运行速度则会大大降低。另外我们解决了跨集群数据计算和访问的问题。联想在全球有十个计算中心，每个计算中心会存储一部分的业务数据，当北京的用户执行了查询任务时，会把请求发到北京集群中，而集群会把世界各地的数据融合后进行计算。这个时候就会遇到Spark、Hadoop访问集群的情况。假设有A集群和B集群，当A接受请求任务时，会识别

2024年1月10日发(作者：竹茗雪)

龙源期刊网

拥抱开源，联想大数据产品的技术创新与突破

作者：张成松

来源：《软件和集成电路》2018年第07期

USB迷 | 专注于互联网分享

拥抱开源,联想大数据产品的技术创新与突破

与本文相关的文章

评论列表 (0)