NVIDIA携手腾讯开发和优化SparkUCX实现性能跃升

TDW-Spark 是腾讯公司级数据平台,是腾讯海量数据处理平台中最核心的模块,支持百 PB 级的数据存储和计算,业务涉及公司各个 BG,为腾讯公司提供海量、高效、稳定的大数据平台支撑和决策支持,是腾讯公司最大的离线数据处理平台。

Spark 网络目前的现状包括大规模部署 QP 连接数不够用,使用 RDMA DC 解决连接数过多的问题;Spark 不同应用场景需要不同的 EP 个数、RPC 调用次数、Spark UCX 线程数、Block 大小等,需要联合调配;RDMA 和 TCP 混合部署,需要兼容和故障逃生;以及网络带宽低,需要提升带宽,降低延时。


(资料图片仅供参考)

Spark 原始的业务问题包括:

通信耗时占比高:Spark Shuffle 时间占 Spark 运行总时间的 30% - 40%,造成 Spark 任务完成时间长。

业务需求:网络 IO 和磁盘 IO 是 Spark Shuffle 的瓶颈,需要提高通信效 率,提高计算效率。

降本增效:五万张已经部署的 NVIDIA ConnectX-5 网卡需要提高性能利用率,切换到 RDMA,提高业务带宽。

为了应对上述问题及挑战,腾讯进行了 Spark RDMA 大规模部署网络的工作,主要从两个方面着手:Spark RDMA 网络部署和优化,以及 Spark UCX / UCX 性能优化。

具体部署调优步骤:

搭建 37 节点 NVIDIA ConnectX-5 网卡和 26 节点 NVIDIA ConnectX-6 网卡 Spark 环境,部署 Spark、Spark UCX、UCX 代码进行长稳调优。

基于 GroupByTest 和现网 Spark 业务流量,在 UCX、Spark UCX、Spark 三个层次调优对比 DC、RC 和 TCP 效果。

优化 Spark UCX、UCX 代码,根据 Spark 业务调优网卡和交换机配置。

通过在 NVIDIA ConnectX-5 和 NVIDIA ConnectX-6 Dx bond 引入 DCT,提升 Spark 业务带宽利用率。

RDMA 和 TCP 网络共存的情况下,保障长稳运行和 RDMA 故障逃生。

RDMA 部署优化完成情况:

大规模:使用 DCT 技术共享 QP 连接,解决了大规模 QP 不够用 的问题。大规模仿真下 Spark 应用 RDMA 网络满足预期。

Spark 应用和网络联合调优:实现了最优的网卡和交换机配置,以 及 Spark 任务配置,降低了 15% - 20% 左右的读完成时间。

故障逃生:Spark UCX 和 UCX 代码层面实现了 RDMA 和 TCP 通道备份。确保 RDMA 故障逃生 TCP,保证稳定运行。

稳定性保证:开发了驱动版本检测、网卡配置和检测、自动化安装升级检测功能。开发了测试网络性能模块,保证 Spark RDMA 各层带宽和延时满足预期。

1. 参数调优:通过调整 maxReqsInFlight、numListenerThreads 等 Spark / Spark UCX 参数,提升任务执行效率,获得最好传输速率,发挥最大系统效能。

2. CPU 利用率优化:启用 sleep / wakeup 特性,替代 busy waiting 模式。让出 CPU 给 Spark 计算任务,减少了 CPU 浪费,体现了 RDMA 的优势。

3. 网路 IO 优化:网路 IO 由阻塞模型改为非阻塞模型,数据接收由同步等待改为异步通知。避免了因为网路 IO 等待而 阻塞计算任务执行,提高了每个线程的任务吞吐量,提升了收发效率和带宽。

图 2:网络 IO 优化

4. 调度优化:worker 的调度方式改用全局 round-robin (RR) 调度模式,替代原有的按照 thread id 选择 worker 的 方式。避免了 thread id 不连续引起的多个线程选择同一 worker 的问题。

5. 数据竞争优化:将 send / receive / progress 方法打包至独立线程运行,保证每个 worker 资源仅被单个线程 访问 / 修改,避免了数据竞争,提升了线程运行效率。

1. 参数调优:使用 DC 替换 RC 模式,提升传输带宽,减少系统 CPU、内存资源消耗。开启 CQE zipping 和 PCI relax ordering 减少 PCI 负载。调整 UCX_ZCOPY_THRESH、UCX_RNDV_THRESH 和 UCX_RND_SCHEME,获得稳定高速的传输带宽。

2. 网络负载均衡优化:随机化 UDP 源端口取值,减轻由于固定端口,交换机对 5 元组哈希得到相同出端口而引起的 负载不均衡问题,优化网络传输带宽。

经过部署调优,NVIDIA ConnectX-6 环境 RDMA 传输性能比 TCP 平均有 18% 的提升;NVIDIA ConnectX-5 环境大部分场景 RDMA 传输性能比 TCP 平均有 16% 的提升。考虑到 Spark 任务有计算和本地 write,所以对 Spark 任务整体完成时间大概有 8% 的性能提升。

NVIDIA ConnetX-6 环境 RDMA 性能提升明显(RDMA read 通信 18% 左右提升,整体完成时间 8% 左右提升),可以大规模灰度部署 Spark 业务真实流量。NVIDIA ConnectX-5 环境大部分场景性能平均提升(RDMA read 通信 16% 左右提升,整体完成时间 6% 左右提升),部分场景 RDMA 性能较差还需要调测优化,可以灰度部署 Spark 业务,继续优化还有提升空间。

图 5:ConnectX-5 网卡 37 台规模 RDMA 完成时间比 TCP 低 18% 左右

图 6:20 台规模 Spark 业务灰度测试,RDMA read 平均降低 20% 左右

Spark 项目通过远程直接内存访问(RDMA)技术解决网络传输中服务器数据处理延迟问题,为腾讯 Spark 大数据平台业务提供高带宽、低延时的通信。该技术已在二十多台腾讯 Spark 大数据平台服务器完成灰度测试,运行稳定且 Spark Shuffle(数据读取速率)时间平均降低 15% - 18% 左右,减少了 Spark 任务完成时间(大约 8% 左右),节约了服务器资源。计划逐步部署到数千台 Spark 服务器。

标签:

最近更新

NVIDIA携手腾讯开发和优化SparkUCX实现性能跃升
2023-08-25 21:20:25
优必选科技完成境外发行上市备案 或将成“人形机器人第一股”
2023-08-25 19:43:49
乌鲁木齐:溢达创研村举办首次开放日活动
2023-08-25 18:02:48
邵阳市住房和城乡建设局召开“党建引领聚合力 民族团结一家亲”主题党日活动
2023-08-25 16:44:37
祖名股份:营利双降!上半年净利润同比下降超两成
2023-08-25 14:53:33
有意见 | Unity中国的本土化之路,打造更懂中国开发者的实时3D引擎
2023-08-25 13:33:57
23中级会计考前必刷!《财务管理》300母题
2023-08-25 12:13:44
纬德信息:8月24日融资买入273.05万元,融资融券余额3351.74万元
2023-08-25 10:50:57
山东省济宁市梁山县:加强村级阵地建设 提升为民服务能力
2023-08-25 09:25:34
雷军犹豫了一下,理想就挨揍了
2023-08-25 08:09:46
工大高新股票行情_工大高新股票
2023-08-25 06:13:16
中国·北京“大韩民国签证申请中心”于8月24日正式开业
2023-08-25 02:01:34
中泰期货(01461.HK):提名刘庆斌为执行董事候选人
2023-08-24 22:00:35
全球多地大火肆虐 超百座建筑被毁
2023-08-24 20:40:25
警探号丨9月1日起 北京取消二环主路公交专用道 三环外专用道将在公休日节假日放开
2023-08-24 19:03:38
港股或已具性价比
2023-08-24 17:46:27
国科微:公司目前暂无芯片产品可直接应用于自动驾驶领域
2023-08-24 15:58:43
东海证券:看好2024年工程机械开启新一轮向上周期
2023-08-24 14:56:18
公开杯决赛:迈阿密战休斯敦迪纳摩,东区倒一PK西区第六!
2023-08-24 13:06:57
深读|肇庆党政代表团拜访广汽集团 共商汽车产业这件大事
2023-08-24 11:37:05
北京集体户口辞职了不转走可以吗(北京集体户口辞职后怎么办)
2023-08-24 10:20:07
《潜行者2》第4次跳票!现定于2024年第一季度发售
2023-08-24 08:52:41
秋后算账?飞机坠毁,普里戈任“难逃一死”,拜登暗示是普京所为
2023-08-24 07:55:18
科隆游戏展开幕!黑神话悟空成首日焦点
2023-08-24 06:03:55
京东商城官网(在京东商城如买到假酒该怎么办)
2023-08-24 01:01:41
板材冷轧总厂推行TPM管理 助力设备稳定运行
2023-08-23 21:46:16
中触媒(688267.SH):上半年净利润3921.71万元,同比下降48.10%
2023-08-23 20:02:50
文化润边疆,豫疆情更浓!“春雨工程”中原古曲赴新疆巡演圆满收官
2023-08-23 18:37:16
A股三大指数创年内收盘新低
2023-08-23 17:20:11
尚品宅配西安一经销商跑路,涉案金额超40万元
2023-08-23 15:47:31