TPC Benchmark
Workload 压力测试,包括 Spark/Flink 相关任务的测试。
TPC-DC Benchmark
TPC-DS1 由第三方社区创建和维护,是事实上的做性能压测,协助确定解决方案的工业标准。这个测试集包含对大数据集的统计、报表生成、联机查询、数据挖掘等复杂应用,测试用的数据和值是有倾斜的,与真实数据一致。可以说 TPC-DS 是与真实场景非常接近的一个测试集,也是难度较大的一个测试集。
TPC-DS 包含 104 个query,覆盖了 SQL 2003 的大部分标准,有 99 条压测query,其中的4条query各有2个变体(14,23,24,39),最后还有一个 s_max query进行全量扫描和最大的一些表的聚合。
这个基准测试有以下几个主要特点:
- 遵循SQL 2003的语法标准,SQL案例比较复杂;
- 分析的数据量大,并且测试案例是在回答真实的商业问题;
- 测试案例中包含各种业务模型(如分析报告型,迭代式的联机分析型,数据挖掘型等);
- 几乎所有的测试案例都有很高的IO负载和CPU计算需求。
测试步骤
环境准备
- Create EKS Cluster
- Create S3 Bucket
- Install Spark Operator
- Install Spark History Server
- Install Alluxio
数据生成
通过执行 DataGeneration.scala 来生成数据,并存储在 S3 上,后面的 Spark SQL 查询任务会用到这些数据。
|
|
Reference
Linked Mentions