7123开元官网

登 录 返 回 旧 网
当前位置: 网站首页 > 学术动态 > 正文

7123开元官网沈炜教授团队在 AICCSA 上获最佳论文奖

【来源: | 发布日期:2021-12-13 | 点击数: 】

       近日,7123开元官网沈炜教授课题组在AICCSA(The ACS/IEEE International Conference on Computer Systems and Applications)发表了题为“On a small file merger for fast access and modifiability of small files in HDFS”的研究论文,并荣获该刊最佳论文奖。沈炜老师指导的2019硕士研究生陈定超为该论文第一作者。这是7123开元官网科研工作取得的又一项可喜成果。

       随着信息化时代的发展,广泛用于数据挖掘、数据分析、机器学习的大数据领域已经成为当前最为火热的领域。该领域中,HDFS(Hadoop Distributed File System)系统广泛用于大数据文件存储,是一切大数据应用的基石。其设计初衷是用于存储大文件,可如今却不可避免的需要存储小文件。例如,图片、音频数据集,网站日志等。但是,大量的小文件会导致HDFS的NameNode内存不足和性能低下。

       为解决针对小文件的存储问题,沈炜教授团队进行了广泛地调查研究。团队深入分析小文件的产生原因及其所带来的影响,共同商讨出解决方案,并由此开发出SFM(Small File Merger)系统。该系统通过将众多小文件合并成一个大文件的方法,有效缓解NameNode内存的压力,同时通过Two-Level index结构,实现了高效的文件读取。与此同时,为了提升SFM的兼容性,系统提供了原生HDFS API,这样无需重写上层的应用代码就可以实现直接使用。

       为了进一步提升SFM读取文件的性能,团队提出了基于SPSA(Simultaneous Perturbation Stochastic Approximation)的自适应预读。SPSA算法能很好的处理在大数据heterogeneous集群中各种随机波动(网络波动,节点故障,资源竞争等),使得预读更具有通用性。除此之外,SPSA不像传统的机器学习算法需要通过大量的数据集进行训练,SPSA更加高效,能够在不影响整个集群性能的情况下自适应地调整每一次预读。

       经系统测试,沈炜教授课题组开发的SFM可以使得整个集群读写性能提升至少一倍,切实提高了使用性能和效率。