期刊检索

  • 2024年第56卷
  • 2023年第55卷
  • 2022年第54卷
  • 2021年第53卷
  • 2020年第52卷
  • 2019年第51卷
  • 2018年第50卷
  • 2017年第49卷
  • 2016年第48卷
  • 2015年第47卷
  • 2014年第46卷
  • 2013年第45卷
  • 2012年第44卷
  • 2011年第43卷
  • 2010年第42卷
  • 第1期
  • 第2期

主管单位 中华人民共和国
工业和信息化部
主办单位 哈尔滨工业大学 主编 李隆球 国际刊号ISSN 0367-6234 国内刊号CN 23-1235/T

期刊网站二维码
微信公众号二维码
引用本文:阚忠良,李建中.基于回归模型的Spark任务性能分析方法[J].哈尔滨工业大学学报,2018,50(3):192.DOI:10.11918/j.issn.0367-6234.201710009
KAN Zhongliang,LI Jianzhong.Spark task performance analysis method based on regression model[J].Journal of Harbin Institute of Technology,2018,50(3):192.DOI:10.11918/j.issn.0367-6234.201710009
【打印本页】   【HTML】   【下载PDF全文】   查看/发表评论  下载PDF阅读器  关闭
过刊浏览    高级检索
本文已被:浏览 1536次   下载 1057 本文二维码信息
码上扫一扫!
分享到: 微信 更多
基于回归模型的Spark任务性能分析方法
阚忠良,李建中
(黑龙江大学 计算机科学技术学院, 哈尔滨 150080)
摘要:
为解决Spark任务运行过程中的性能评估与改进问题,本文提出一种基于启发式算法和支持向量机回归模型的Spark性能评价与分析方法.本文首先提出一种启发式性能评价算法,该方法采用Ganglia收集并处理Spark任务运行时的集群资源消耗数据,根据k-means算法划分任务类型,并根据任务类型确定启发式性能评价算法的评价指标和初始权重.然后,从Spark历史服务器中收集并处理任务运行效率数据,与集群资源消耗数据一并作为Spark任务运行时的状态数据.最后,根据状态数据迭代确定启发式性能评价算法的最终权重,以此建立Spark性能评价回归模型.本文随后提出一种基于支持向量机SVM回归算法(SVR)的Spark性能分析方法.该方法对Spark配置参数与整体性能建立回归模型,然后对该回归模型进行敏感度分析,找到能够影响Spark性能的重要参数.实验结果表明,启发式性能评价算法能够量化Spark任务资源消耗和运行效率等各方面性能,比较全面地评估任务的整体性能.基于SVR的性能分析方法能够比较有效地应用于Spark任务的实际分析中,形成初步的Spark任务性能调优建议.
关键词:  Spark  性能评价  回归模型  敏感度分析
DOI:10.11918/j.issn.0367-6234.201710009
分类号:TP311
文献标识码:A
基金项目:
Spark task performance analysis method based on regression model
KAN Zhongliang,LI Jianzhong
(School of Computer Science and Technology, Heilongjiang University, Harbin 150080, China)
Abstract:
To solve the problem of performance evaluation and improvement when the Spark tasks are performed, this paper proposes a Spark performance evaluation and an analysis method based on the heuristic algorithm and support vector machine regression model. A heuristic performance evaluation algorithm is proposed, which uses Ganglia to collect and process the consumption data of cluster resource when performing the Spark tasks. According to the k-means algorithm, the task type is determined and the evaluation index and the initial weight of the heuristic performance evaluation algorithm are determined according to the task type. The task efficiency data is collected and processed from the Spark history server, and it is regarded as the state data of the Spark run-time task along with the cluster resource consumption data. The final weight of the heuristic performance evaluation algorithm is determined according to the state data iteration process, and then the Spark Performance Evaluation Regression Model is established. A Spark performance analysis method based on support vector machine SVM regression algorithm (SVR) is proposed subsequently. This method establishes a regression model for the Spark configuration parameter and the overall performance, and then analyzes the sensitivity of the regression model to find important parameters that affect the performance of Spark. The experimental results show that the heuristic performance evaluation algorithm can quantify the performance of Spark task resource consumption and operation efficiency, and can comprehensively evaluate the overall performance of the task. The SVR-based performance analysis method can be applied to the actual analysis of Spark task effectively, which can form the initial tuning advice about the Spark mission performance.
Key words:  spark  performance evaluation  regression  sensitivity analysis

友情链接LINKS