TPC-H 专门用于评估决策支持系统在特定查询上的性能,特别是服务器在数据挖掘和分析处理方面的能力。该基准测试包含 22 个 SELECT 语句,每个语句都经过严格定义,符合 SQL-92 语法,并且不允许用户修改。TPC-H 标准从四个方面定义每个 SELECT 语句:商业问题、语法、参数和查询确认。
这些 SELECT 语句的复杂程度远超大多数实际的 OLTP 应用,单个语句的执行时间从几十秒到 15 小时以上不等,完成所有 22 个查询需要数小时。
TPC-H 测试步骤
- 环境搭建: 安装 Spark、Hive、Cassandra 和 Greenplum。
- 数据生成: 使用 dbgen 工具(可在 Linux 下编译)生成测试数据。
- 建表和数据导入: 创建数据库表并将生成的数据导入。
- 执行查询: 运行 Q1 至 Q22 查询语句(可参考现有案例,例如 Spark 上的示例),并使用脚本记录日志。