Skip to main content
  • 论坛简介
  • 论坛日程
  • 报告简介
  • 1.实时大数据分析之利器Druid
  • 2.携程大数据及AI处理架构
  • 3.MindAI如何让机器变得懂你
  • 4.内存计算和垃圾回收问题研究
  • 5.大数据“双实时”处理

报告四:内存计算系统内存垃圾回收问题研究


报告摘要:

目前主流的分布式数据处理系统,如Spark和Flink,都通过在内存中缓存计算的中间结果来减少重算和磁盘IO。然而,这种以内存为中心的计算框架往往会导致作业运行时在JVM堆中创建大量长生命周期的数据对象。大量存活对象会严重降低JVM的垃圾收集性能,其空间占用接近可用内存上限时甚至还会影响系统运行的稳定性。针对这一问题,本报告将探讨业界各种GC优化方法的优势与缺陷,并介绍一种基于对象生命周期的内存管理和程序优化框架Deca。Deca截获用户提交的作业,自动分析代码中的自定义类型(UDT)和自定义方法(UDF),以获取不同数据对象的生命周期和内存占用信息。在保证代码转换语义正确性的前提下,Deca将相同生命周期对象中的数据集中存储在少量字节数组中,从而显著降低了存活对象的数量。实验结果表明,Deca最多可以减少99.9%的垃圾收集时间。


报告人简介:

石宣化,华中科技大学教授,博士生导师,大数据技术与系统湖北省工程实验室副主任,服务计算技术与系统教育部重点实验室大数据研究方向负责人,担任多个国际学术会议的程序委员会主席或联合主席、多个国际学术会议程序委员会委员等职。湖北省自然科学基金杰青项目获得者,主持国家国际科技合作专项、国家自然科学基金、国家科技支撑计划项目等多项国际、国内项目,相关研究工作成果被IEEE Computer杂志作为亮点工作推荐,获教育部技术发明一等奖1项,湖北省自然科学优秀学术论文一等奖1项。