文件名称:trace-analysis:分析Spark性能的脚本
文件大小:66.96MB
文件格式:ZIP
更新时间:2024-06-07 00:56:55
Python
了解Spark性能 注意:现在已弃用这些脚本,因为它们显示的信息现在是Apache Spark UI的一部分。 要查看阶段中的每个任务如何花费时间,请在Spark UI中单击阶段详细信息页面,然后单击“事件时间轴”。 这将显示此处脚本输出的绘图(看起来更好)。 该存储库包含脚本,以了解使用运行的作业的性能。 配置Spark记录性能数据 为了使用这些工具,您首先需要通过将Spark配置参数spark.eventLog.enabled为true ,将Spark配置为在作业运行时记录性能数据。 此配置参数使Spark主数据库将包含有关每个已完成任务的信息的日志写入主数据库中的文件。 母版已经跟踪了此信息(大部分信息显示在Spark的Web UI中); 设置此配置选项只会使主机输出所有数据供以后使用。 默认情况下,事件日志将写入运行Spark主服务器的计算机上的/tmp/spark-events
【文件预览】:
trace-analysis-master
----make_disk_breakdown.sh(294B)
----utilization_scatter_base.gp(827B)
----parse_all.py(474B)
----all_utilization.py(2KB)
----job.py(36KB)
----stage.py(14KB)
----utilization_scatter.py(2KB)
----breakeven.py(5KB)
----parse_logs.py(8KB)
----04_15_14_full()
--------2b_mem_job_log(27.64MB)
--------3b_mem_job_log(29.86MB)
--------2a_mem_job_log(27.61MB)
--------1a_mem_job_log(37KB)
--------4_disk_job_log(29.29MB)
--------3a_mem_job_log(29.6MB)
--------1b_disk_job_log(37KB)
--------1b_mem_job_log(37KB)
--------3b_disk_job_log(29.91MB)
--------2b_disk_job_log(27.66MB)
--------2c_mem_job_log(27.63MB)
--------4_mem_job_log(29.44MB)
--------1c_mem_job_log(37KB)
--------2a_disk_job_log(27.67MB)
--------1c_disk_job_log(37KB)
--------3c_disk_job_log(29.86MB)
--------2c_disk_job_log(27.65MB)
--------1a_disk_job_log(37KB)
--------3c_mem_job_log(29.86MB)
--------3a_disk_job_log(29.6MB)
----upload.py(87KB)
----waterfall_base.gp(961B)
----running_tasks_template.gp(713B)
----04_15_14_disk()
--------4_disk_job_log(29.29MB)
--------1b_disk_job_log(37KB)
--------3b_disk_job_log(29.91MB)
--------2b_disk_job_log(27.66MB)
--------2a_disk_job_log(27.67MB)
--------1c_disk_job_log(37KB)
--------3c_disk_job_log(29.86MB)
--------2c_disk_job_log(27.65MB)
--------1a_disk_job_log(37KB)
--------3a_disk_job_log(29.6MB)
----test_files()
--------test_job_log(2KB)
--------expected_agg_out_normalized_runtimes_hdfs_non_local(4B)
--------expected_agg_out_normalized_runtimes_hdfs(20B)
----scatter_base.gp(819B)
----README.md(12KB)
----simulate.py(924B)
----disk_utilization.py(2KB)
----estimate_runtime_lower_bound.py(5KB)
----task.py(15KB)
----04_15_14_mem()
--------2b_mem_job_log(27.64MB)
--------3b_mem_job_log(29.86MB)
--------2a_mem_job_log(27.61MB)
--------1a_mem_job_log(37KB)
--------3a_mem_job_log(29.6MB)
--------1b_mem_job_log(37KB)
--------2c_mem_job_log(27.63MB)
--------4_mem_job_log(29.44MB)
--------1c_mem_job_log(37KB)
--------3c_mem_job_log(29.86MB)
----concurrency.py(2KB)
----sample_waterfall.jpg(94KB)
----parse_stragglers.py(1KB)
----job_logs()
--------2a_1391737661_job_log(531KB)
--------3a_1391755165_job_log(624KB)
--------3c_1391756030_job_log(574KB)
--------2b_1391753636_job_log(531KB)
--------3b_1391755678_job_log(627KB)
--------1391736456_job_log(2KB)
--------1391736806_job_log(2KB)
--------2c_1391754052_job_log(531KB)
----get_query_stats.py(3KB)
----plot_proc_results.py(19KB)
----run_tests.sh(478B)