中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于容器的虚拟化技术在天文数据流水线中的应用研究

文献类型:学位论文

作者王新华
答辩日期2021-07-01
文献子类硕士
授予单位中国科学院大学
授予地点北京
导师刘忠 ; 陈东
关键词天文多波段 数据流水线 容器技术 微服务 抚仙湖太阳观测站
学位专业天文技术与方法
其他题名Research on the application of container-based virtualization technology in astronomical data pipeline
英文摘要随着天文大设备近年来不断投入使用,天文数据呈现爆炸式增长,每一个天 文望远镜可能搭载多个终端设备, 因此如何快速部署流水线并高速处理多波段的 原始观测数据是天文数据处理研究领域内的一个热点。本文深入研究了兼具高 性能、灵活性且可移植的流水线开发方法,在传统数据流水线的基础上提出了一 种基于容器和微服务的通用天文数据流水线开发框架。并使用此框架开发了抚 仙湖太阳观测站云南天文台 1m 新真空太阳望远镜(NVST)和南京大学光学和 近红外太阳爆发探测仪(ONSET)的数据处理流水线。本文主要的创新性研究 工作包括 2 大部分: •将高性能容器化虚拟技术 Singularity 引入天文数据流水线的开发。在实 际工程中对 singularity 的性能进行了评估,发现在实际工程中 singularity 带来的 性能开销是非常小的 (小于 5%) 几乎可以忽略不计。容器技术的引入解决了环境 中的软件依赖问题,使得开发后的流水线可以运行在任意高性能计算环境下,很 大程度上提高了流水线的可移植性,同时由于容器带有流水线完整的环境,使得 在线调试变得更加容易。 • 采用基于微服务的理念开发兼具高性能、灵活性和易移植的流水线模式。 灵活性和可移植性方面:定义了流水线解耦标准并将流水线解耦,使用消息队列 网络库 ZeroMQ 实现服务的发现和注册。解耦后流水线的每个微服务具备单一 的功能和明确的输入输出。通过配置文件定义流水线拓扑结构并实现了配置文 件的解析和流水线的一键部署。这种模式非常适合多终端多功能天文数据流水 线的开发,最大程度的增加了程序的复用性减少了重复的软件开发,可以在新设 备投入时最短时间搭建科学级数据处理流水线。在高性能方面,我们提出了两种 容器资源扩容和调度算法,在 CPU 或 GPU 资源利用率不足时可以为流水线提供 外围加速功能。另外,基于 singularity 的数据流水线对 MPI、GPU 和 IB 网络等 高性能场景均可以支持。 综上所述,本文基于容器和微服务的理念开发了天文数据流水线的通用框 架,并为抚仙湖观测站的望远镜开发了相应的数据流水线。经过工程实践验证了这种开发方法的可行性,并且认为这种方案对于当前多波段天文数据流水线的开发是可行的。
学科主题天文学 ; 天文学其他学科 ; 计算机科学技术
语种中文
页码61
源URL[http://ir.ynao.ac.cn/handle/114a53/25492]  
专题云南天文台_抚仙湖太阳观测站
作者单位中国科学院云南天文台
推荐引用方式
GB/T 7714
王新华. 基于容器的虚拟化技术在天文数据流水线中的应用研究[D]. 北京. 中国科学院大学. 2021.

入库方式: OAI收割

来源:云南天文台

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。