CNCC专题论坛聚焦之11:系统软件与云计算论坛

  10月25日下午,2014中国计算机大会的重要活动之一 ----“系统软件与云计算论坛”在郑州国际会展中心举行。

  云计算的发展离不开系统软件的支撑。随着云计算逐步推广与进一步细分,系统软件是如何支撑云计算的进一步发展,云计算又是如何影响系统软件的发展?“系统软件与云计算论坛”从系统软件与云计算两者之间的相互影响与相互促进角度出发,邀请国内云计算与系统领域著名专家与学者介绍云环境下系统软件如何承上启下支撑上层业务特性(如高可用性与高可扩展性)、如何管理包括存储、图形处理硬件资源、以及新型云计算(如高性能计算、深度学习)对系统软件构建提出的新的机遇与挑战。

  本次论坛主席由CCF杰出演讲者上海交通大学教授陈海波担任。

  CCF理事、副秘书长、清华大学教授陈文光在论坛上作了题为“云上的异构调度器”的报告。他在报告中指出:云计算正在日益流行,在云上运行中小规模的高性能计算程序已成为一种可行的选择。然而,现有的云调度器Yarn主要是为调度MapReduce类任务设计的,还不能很好地支持MPI任务的调度,原有MPI调度器中的一些相关优化调度机制,如回填等也未能在Yarn中实现。他在报告中讨论了云调度器的演化,以及对异构任务调度器越来越强烈的需求,并介绍了在这方面的一些初步成果。

  主管腾讯云和微云产品的研发工作陈晓建在论坛上作了题为“网络虚拟化的实践”的报告。他在报告中指出:网络虚拟化是云服务的重要组成部分。云服务要求网络架构能灵活适应业务需求,按照用户要求来自由变更网络地址和拓扑结构。他还在报告中分享了他们在网络虚拟化方面的一些实践。

  英特尔亚太研发有限公司首席工程师董耀祖在论坛作了“完全图形虚拟化实现”的报告。他在报告中提出了一个基于Intel GPU的完全实现方法:它可以直接运行原生GPU驱动程序实现完全功能,和运用介入直通技术实现高性能。完全图形虚拟化可以达到原生系统95%的性能。

  上海交通大学教授管海兵在论坛上作了题为“高可用云平台的系统虚拟化支撑方法”的报告。他在报告中指出:确保关键业务能持续不间断对外提供服务(高可用性)是云计算平台高度关注与亟待解决的关键问题。随着云系统规模的不断增大,可用性成为了制约云计算发展的主要障碍之一。计划外的故障和计划内的维护是影响云计算可用性的两类因素。计划外的故障主要解决途径是应用级容错和虚拟机容错,计划内的维护主要解决途径是虚拟机主动迁移和系统在线更新。他在报告中分析了提升云计算可用性的方法和技术,并给出了相关实践。

  清华大学教授舒继武在论坛上作了题为“面向闪存的存储系统构建与思考”的报告。他在报告中首先介绍了闪存硬件技术(如MLC及3D NAND等)的发展及表现特征;然后,从软硬件结合的设计、对闪存友好的系统设计等方面,总结并分析了闪存在对于本地文件与存储系统的影响,分析闪存在分布式系统中的应用,包括闪存缓存、闪存内计算以及分布式闪存协议等多个方面;最后,结合闪存的应用现状探讨了闪存在大规模存储系统中的发展趋势。

  CCF理事、副秘书长,阿里集团的高级研究员与副总裁章文嵩在论坛上作了题为“建构大型云计算平台的实践”的报告。他在报告中首先分析客户对云计算平台的基本要求,再把这些转为云计算平台对背后分布式系统的要求,从而在分布式系统中设计和取舍来满足这些要求,形成高性能、低成本的形态丰富云产品线。他在报告中,以云服务器ECS的分布式存储设计为例子,介绍如何进行IO设计和优化达到高性能和高可靠,并给出初步优化后的纯SATA集群的测试结果和SSD混合存储的测试结果;对于Hadoop/HBase/MongoDB等分布式应用,应用本身已经考虑数据的多副本和可靠性,则提供SATA临时磁盘和SSD临时磁盘。再讲述关系数据库服务RDS系统设计上的考量,和SLB负载均衡服务的实现。然后,描述各个云产品中的全链路的监控与分析系统,能够快速定位问题所在。最后,对未来的一些工作进行了展望。

  上海纽约大学计算机系终身教授张峥在论坛上作了题为“系统研究需要从“、‘端’走向‘端’”的报告。他在报告中,就与大数据计算相关的两个重要的技术问题,即1)带误差精度保证的大规模数据近似计算和2)大规模深度神经网络的训练,和与会者重新审视这个理念。并说明在类似的问题背景之下,局限在传统的系统研究框架下既不明智,也不保险。相反的,系统建构作为任何领域的底层引擎,在各类重要的跨界问题中都是广阔天地大有可为。但这要求我们系统研究人员能放宽视野,提升角度,和其他领域的研究人员一起携手,从“端”做到“端”。


陈文光作”云上的异构调度器“报告


陈晓建作”网络虚拟化的实践“报告


董耀祖作”完全图形虚拟化实现“报告


管海兵作”高可用云平台的虚拟化支撑方法“报告


舒继武作”面向闪存的存储系统构建与思考“报告


章文嵩作”建构大型云计算平台的实践“报告


张峥作”系统研究需要从‘端’走向‘端’“报告