解读2018:13家开源框架谁能统一流计算?

策划编辑 | Natalie
AI 前线:2018 年接近尾声 , AI 前线策划了“解读 2018”年终技术盘点系列文章,希望能够给读者清晰地梳理出重要技术领域在这一年来的发展和变化 。本文是实时流计算 2018 年终盘点,作者对实时流计算技术的发展现状进行了深入剖析,并对当前大火的各个主流实时流计算框架做了全面、客观的对比,同时对未来流计算可能的发展方向进行预测和展望 。更多优质内容请
企业上云主要担心三个问题:
数据安全,数据属于企业核心资产;被厂商锁定;削弱自身技术能力 。
对于数据安全,国内的《网络安全法》已经正式实施,对个人隐私数据保护有法可依;另外欧盟 GDPR《通用数据保护条例(General Data Protection Regulation)》正式生效,都说明法律要管控数据乱象了 。
选择中立的云厂商很关键 。云厂商大都会选择开源系统作为云服务的基石,如果担心被锁定,用户选择云服务的时候留意下内核就好 。当然,这会导致开源社区和云厂商的矛盾,提供企业化大数据平台可能会被公有云抢生意,开源社区要活下去,DataBricks 跟 Azure 的合作例子就是聪明的选择 。
担心削弱公司技术能力 , 倒是不必 。未来大数据框架会越来越傻瓜化 , 运维和使用门槛也会越来越低 , 企业不如把主要精力聚焦于用大数据创造价值上 , 不为了玩数据而玩数据,是为了 make more money 。
目前常见的流计算服务包括:
AWS KinesisAzure 流分析Huawei Cloud 实时流计算服务Aliyun 实时计算
AWS Kinesis 流计算服务推出较早,目前已经比较成熟,提供 serverless 能力,按需收费、全托管、动态扩容缩容,是 AWS 比较赚钱的产品 。Kinesis 包含 Data Streams、Data Analytics、Data Firehose、Video Streams 四个部分 。Data Streams 做数据接入,Data Firehose 做数据加载和转储,Data Analytics 做实时流数据分析 , Video Streams 用于流媒体的接入、编解码和持久化等 。Azure 的流分析做的也不错,主打 IoT 和边缘计算场景 。从 Kinesis 和 Azure 流分析能看出,IoT 是流分析的主战场 。产品虽好,国内用的不多 , 数据中心有限而且贵 。
华为云实时流计算服务是以 Flink 和 Spark 为核心的 serverless 流计算服务 , 早在 2012 年华为就开始了自研的 StreamSmart 产品,广泛在海外交付 。由于生态闭源,团队放弃了 StreamSmart,转投 Flink 和 Spark 双引擎 。提供 StreamSQL 为主的产品特性:CEP SQL、StreamingML、Time GeoSpartial 时间地理位置分析、实时可视化等高级特性 。首创独享集群模式,提供用户间物理隔离,即使是两个竞争对手也可以同时使用实时流计算服务,用户之间物理隔离也断绝了用户间突破沙箱的小心思 。
阿里云的流计算服务,最早是基于 Storm 的 galaxy 系统,同样是基于 StreamSQL , 产品早年不温不火 。自从去年流计算彻底转变,内核改为 Flink,经过双 11 的流量检验,目前较为活跃 。
总结 & 展望
实时流计算技术已经成熟,大家可以放心使用 。目前的问题在于应用场景推广,提升企业对云厂商的信任度 , 广泛应用流计算创造价值 。而流计算与 AI 的结合 , 也会是未来可能的方向:
StreamingML 在线机器学习StreamingGraph 在线图计算StreamingAI 实时 AI流批合一流存储实时流计算 + 边缘计算、工业 IoT、车联网、智慧城市作者介绍
时金魁 , 华为云高级技术专家 , 负责华为云实时流计算服务 。多年来从事高性能计算和大数据方面的工作 , 近两年专注于 Flink 和 Spark 及周边生态框架的研究和产品落地 。曾就职于搜狐、淘宝和阿里云 。标准的 Scala 程序员 。
【解读2018:13家开源框架谁能统一流计算?】以上就是朝夕生活(www.30zx.com)关于“解读2018:13家开源框架谁能统一流计算?”的详细内容,希望对大家有所帮助!

猜你喜欢