基于Hadoop平台的电力行业大数据分析技术应用研究
2018年5月31日 09:28 作者:王天军、沈佳、尹蕊、马宗达摘要:本文通过对基于Hadoop平台的电力行业大数据分析技术研究,构建了结构化和非结构化数据抽取模型,及基于map/reduce的数据分析模型。实现发电、输电、变电、配电、用电等各环节数据的共享融合,在数据挖掘分析上由原来的点状分析,过渡到跨专业的网状数据分析,进一步提高了分析精度和分析效率。
关键字:Hadoop、电力行业、大数据分析
一、引言:
随着互联网+时代的到来,各行业数据的共享与融合越来越迫切。电力生产关系民生和经济发展,随着电力信息化的发展,涉及发电、输电、变电、配电、用电等各个环节的数据呈爆发性增长,PB数量级的数据,已无法通过传统的数据管理、抽取、分析技术挖掘数据间的多重关联关系,从而更有效的实现电力风险预警,提高生产效率和智能调度功能。
二、hadoop平台介绍
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统和MapReduce为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。HDFS的高容错性、高伸缩性等优点允许用户将Hadoop部署在低廉的硬件上,形成分布式系统,MapReduce分布式编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。所以用户可以利用Hadoop轻松地组织计算机资源,从而搭建自己的分布式计算平台,并且可以充分利用集群的计算和存储能力,完成海量数据的处理。
Avro是doug cutting主持的RPC项目,有点类似Google的protobuf和Facebook的thrift。是用于数据序列化的系统。提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程PRC调用以及简单的动态语言集成功能。
实现了MapReduce编程框架,用于大规模数据集的并行运算。能够使编程人员在不理解分布式并行编程概念的情况下也能方便将自己的程序运行在分布式系统上。