产品优势

产品功能

集群管理

方便快捷的集群管理,快速实现集群创建与扩容

  • 集群创建

    通过控制台页面或OpenAPI即可快速的进行多种类型的集群创建,如Hadoop、Dataflow、Datascience、Druid、ZooKeeper等开源大数据框架,无需关心底层的硬件与软件部署

  • 集群扩容

    通过控制台页面或OpenAPI即可方便地增加或减少已有集群的节点数目

  • 服务配置

    可以快速添加EMR提供的服务,可以监控服务的状态,并对服务组件进行配置和运维操作

  • 弹性伸缩

    通过控制台界面可以方便的增加需要的组件,并进行组件的配置与运维操作

  • 动态扩容

    可以设置多种弹性伸缩策略,自动地对集群计算资源进行动态的伸缩,降低TCO

运维中心

完善的运维管理工具,方便快速发现和定位集群问题

  • 集群监控

    提供丰富的服务监控指标和主机监控指标展示,通过可视化的方式快速定位服务和主机异常

  • 事件中心

    EMR服务提供丰富的事件类型,包含服务事件、管控服务事件、主机事件,可以更加快速、具体地获取到集群问题,并可以对问题发生链路进行溯源

  • 作业列表

    对集群作业运行情况进行统计,快速对比异常作业,方便作业和集群性能调优

  • 诊断分析

    提供HDFS冷热数据分析和小文件分析功能,对服务性能优化提供依据

丰富的组件

丰富的组件支持,可以根据需要进行组件的选择

  • DataLake

    一个更灵活、可靠、高效的大数据计算集群

  • Spark

    基于内存的新一代分布式开源大数据框架,支持离线,实时计算,也支持 SQL 语法以及机器学习的处理

  • Hive

    基于Hadoop的一套离线数据处理系统,在HDFS之上提供了结构化的表数据的管理能力,提供类 SQL 的查询语法进行数据分析处理

  • Kafka

    Kafka是一种高吞吐量的分布式发布订阅消息系统,具有出色的性能和可靠性

  • Flink

    针对流数据和批数据的分布式处理引擎,EMR提供基于Apache Flink的商业化产品Ververica Platform构建的企业级大数据计算平台提供实时计算服务

  • Presto

    开源的分布式SQL查询引擎,适用于交互式查询分析

  • ClickHouse

    开源OLAP分析引擎,主要特性:列式存储、MPP架构、支持SQL、实时的数据更新、支持索引等

  • Hudi

    一种数据湖的存储格式,提供更新数据和删除数据的能力以及消费变化数据的能力

  • StarRocks

    开源MPP架构的OLAP分析引擎,支持亚秒级的数据查询和多表Join

完善的云上生态支持

对阿里云上的产品环境进行了深度的整合支持

  • 支持DataWorks

    为客户提供专业高效、安全可靠的一站式大数据开发与治理平台

  • 支持MaxCompute

    支持阿里云的MaxCompute产品的数据的读写

  • 支持ElasticSearch

    在Hadoop中内置了ES-Hadoop插件,可以直接支持ES的相关操作

  • 支持数据湖构建DLF

    EMR默认支持使用DLF进行元数据管理,方便数据湖场景下元数据管理。

  • 支持对象存储OSS

    EMR中所有计算引擎均支持采用OSS作为存储,可以将OSS像HDFS一样使用。并采用JindoFS对OSS数据读写进行加速。

  • 支持云监控

    可以在云监控中设置对于EMR服务和操作的监控,方便问题快速告警

  • 支持SLS

    支持将SLS作为实时数据输入源使用,提供了SDK直接操作

  • 支持阿里云的消息产品

    支持如消息队列,消息服务等的读写,提供SDK包装,方便用户使用

应用场景

  • 大数据搬站
  • 云原生数据湖
  • 智能推荐
  • 交互式分析
延续开源技术栈,链接阿里云生态和开源大数据生态

大数据搬站会遇到如下挑战:大数据技术栈繁杂,数据规模和任务数量大;开源社区版本迭代演进速度快,且开源组件之间的兼容性和社区bug会影响作业和业务的连续性。大数据搬站迁移通过EMR可以延续开源技术栈,链接阿里云生态和开源大数据生态

能够提供

场景覆盖程度高,能延续现有技术栈和组织架构,迁移风险和成本低

组件采用社区最新的稳定版本,通过组件稳定性和兼容性验证测试,更加稳定可靠

可以灵活根据业务需求和技术路线,实现和阿里云生态集成,如数据开发DataWorks+EMR、机器学习PAI+EMR、湖仓一体MaxCompute+Data Lake Formation+EMR

根据数据规模和预算的不同,可以通过闪电立方、专线和公网方式按计划高效率的迁移上云

推荐搭配使用
  • 云服务器 ECS
  • 对象存储 OSS
降低成本,解决资源闲置,适用多种数据分析场景

随着企业积累数据规模迅速膨胀,数据分析使用会遇到:数据规模膨胀的成本挑战;计算和存储耦合带来的某项资源闲置问题;由于多种数据分析场景,如离线计算、流式计算、交互式分析、机器学习等,导致多引擎间频繁的引动数据,造成数据不一致和成本问题。通过EMR及配套云原生数据解决方案,可以有效解决以上问题

能够提供

数据存储在OSS对象存储,通过EMR JindoFS或Alluxio实现数据湖的加速,实现计算和存储解耦的同时,提升和保障计算效率,避免了资源闲置问题

Jindo Table结合OSS的分层存储能力,将大数据业务和底层基础能力相结合,根据数据冷、热、温分层,与不同OSS存储类型匹配,最大限度实现成本节省

EMR数据湖解决方案,可以对接实时计算、PAI、MaxCompute、ElasticSearch等计算引擎,避免数据重复移动

通过EMR+Data Lake Formation,实现对元数据的统一管理,DLF可以对EMR不同计算引擎统一进行权限控制

推荐搭配使用
  • 对象存储 OSS
  • 数据湖构建 DLF
通过EMR构建机器学习和算法平台,加速模型训练

采集用户行为数据,通过EMR构建机器学习和算法平台,通过Hive/Spark构建机器学习的特征库、模型库和算法库,通过EMR Data Science集群TensorFlow/Pytorch实现模型训练,通过PAI EAS实现将模型在线推理服务

能够提供

经过业内经大规模生产验证的推荐系统解决方案,实现CTR点击率大幅提升

适用于离线推荐和实时推荐场景,用户可以根据需求和技术栈方向灵活选择开源技术组件

可以根据PAI EAS/PAI Studio等快速集成,灵活选择合适ECS GPU实例类型

推荐搭配使用
  • 机器学习平台PAI
完全兼容开源版本特性,与EMR其他组件快速集成

采集用户在APP上的各种行为数据,通过EMR平台进行数据的加工和分析,写入ClickHouse,支持上层业务灵活、快速的分析,提升业务决策的效率

能够支持

ClickHouse支持秒级的数据查询,支持应用层的快速调用和人工分析

完整的SQL语句支持,支持灵活的业务逻辑分析

半托管集群,提供集群管理、监控、扩容等运维能力,让技术人员更多的投入业务开发

推荐搭配使用
  • 云服务器ECS