报告四:内存计算系统内存垃圾回收问题研究
报告摘要:
目前主流的分布式数据处理系统,如Spark和Flink,都通过在内存中缓存计算的中间结果来减少重算和磁盘IO。然而,这种以内存为中心的计算框架往往会导致作业运行时在JVM堆中创建大量长生命周期的数据对象。大量存活对象会严重降低JVM的垃圾收集性能,其空间占用接近可用内存上限时甚至还会影响系统运行的稳定性。针对这一问题,本报告将探讨业界各种GC优化方法的优势与缺陷,并介绍一种基于对象生命周期的内存管理和程序优化框架Deca。Deca截获用户提交的作业,自动分析代码中的自定义类型(UDT)和自定义方法(UDF),以获取不同数据对象的生命周期和内存占用信息。在保证代码转换语义正确性的前提下,Deca将相同生命周期对象中的数据集中存储在少量字节数组中,从而显著降低了存活对象的数量。实验结果表明,Deca最多可以减少99.9%的垃圾收集时间。
报告人简介:
石宣化,华中科技大学教授,博士生导师,大数据技术与系统湖北省工程实验室副主任,服务计算技术与系统教育部重点实验室大数据研究方向负责人,担任多个国际学术会议的程序委员会主席或联合主席、多个国际学术会议程序委员会委员等职。湖北省自然科学基金杰青项目获得者,主持国家国际科技合作专项、国家自然科学基金、国家科技支撑计划项目等多项国际、国内项目,相关研究工作成果被IEEE Computer杂志作为亮点工作推荐,获教育部技术发明一等奖1项,湖北省自然科学优秀学术论文一等奖1项。