大数据和云计算结合已成为趋势。在2016第八届云计算中国峰会上,易观CTO郭炜分享了他在易观使用云服务时的心得体会。
业内知名大数据专家、易观CTO郭炜
大数据分析服务四个层面
大数据分析服务其实分为四个层面:
一个是基础服务,它给我们上层应用提供了基础,比如像saas这些基础技术软件硬件平台搭建;
二是数据服务,如PASS这些数据处理平台;
三是分析服务,如AAS或MAS这些分析与模型服务;
四是业务服务,主要是营销类服务。
易观是云服务和云化的支持者,处于第三层。前两层是易观的供应商,第四层是易观的合作伙伴,他们会基于易观的分析服务最终得到营销服务。
大数据分析服务四个层面
坚持云化,但使用公有云美中不足
刚开始我们选择用三家不同的公有云,通过一些MQ组件去接受数据,通过Hadoop去处理数据。这样做主要是为了保证既要有数据出来,又要集群扩展性好。
公有云优势是可以快速部署,快速实现。很短的时间就可以把集群搭起来,没有采购的成本,不需要做很多攻击防护的事情,硬件本身也是免维护的。但当数据量非常大时,它的缺陷就暴露了:
(1)数据量大,执行效率低
不管使用哪家公有云,我们都遇到了数据量非常大,执行效率低的瓶颈,特别是月活超过1亿后更加明显。每次这个时候查询再加优化,就要30分钟左右,这个时间我是不能忍受的。
(2)公有云单位成本高
公有云单价成本高,好机器年度投入超过三万块。
(3)IO瓶颈明显
这种是高密度,高CPU型IO的计算,无论换哪一家公有云,IO瓶颈还是很明显的,和线下集群对比是几倍的关系。
(4)不确定性强
公有云是大家共享一个计算池子,所以使用的时候会出现CPU抢占的情况。因为是高密集计算,这样抢占对CPU切分不是很好,有的跑十来分钟有的跑一个小时,这样对大数据应用来讲存在不可确定性。
(5)防护策略少
易观是在做大数据Hadoop的东西,它的网络的千兆的交换,再加上虚拟机,像网口方面会形成瓶颈。因为易观的数据是源源不断到云端的,它的防护策略也比较少,这么大量的数据实时传到云端,很多时候公有云会当做攻击给清掉。
不过,即使公有云有这么多不足,但它还是帮助我们快速地进入数据分析领域,迅速满足了我们需求,所以我们还会坚持云化的策略。
解决方案——兼具性能与灵活性的混合云
数据越来越多,怎么让集群更有效呢?我们想到了混合云的策略。
(1)混合云让集群更有效
最简单来讲,易观所有数据分析服务是在公有云上面在给大家提供的,底下所有的集群则从云端迁到了线下。如果一个公司想在基础的云服务之上再加一些软件提供,单一的软件是不能满足企业需要的。一个集群一定是多空间、多组件混合在一起,才能满足业务需求。
(2)公有云、私有云难打通
如何把原来公有云和私有云,包括底层使用打通这件事也颇费脑筋。当时用到了云的计算,像加密各种方法,最后用了一个光纤,先到公有云的机房,然后把集群跟光纤做互通,达到目前混合云的效果。
混合云的优势在于大数据平台性能非常稳定,云端也比较很灵活的做配置,云端和线下集群可以相互转换。但公有云和私有云打通并不是那么容易。
第一,它的结构非常复杂,如果出现一些问题需要排查,会对我们人员造成比较大的负担。
第二,它的管理成本比较高,因为线上线下同时监控。
这对技术管理提出了更高的要求,目前易观基于开源工具,优化一套DevOps工具,在使用混合云便利的同时,优化整个维护流程,从而降低管理复杂度。
郭炜:现任大数据分析公司易观CTO,负责公司的技术架构以及开发者生态产品研发、生态市场运营工作。加入易观前,曾任联想大数据总监、万达电商数据部总经理