所有这些程序运行在一个约1800台机器构成的集群上。每台机器配置为2个2G主频、支持超线程的Intel Xeon处理器,4GB物理内存,两个160GB IDE硬盘和一个千兆以太网卡。这些机器部署在一个两层树形交换网络中,root节点具有100-200GBPS的传输带宽。所有机器采用相同的部署,因此任意两点之间的网络来回时间小于1毫秒。在4GB内存中,大约有1-1.5G用于运行集群上的其他任务。测试程序通常在周末下午开始执行,此时主机的CPU、磁盘和网络基本处于空闲状态。GREP分布式grep程序需要扫描大约10^10个由100字节组成的记录,查找出现概率较小的3个字符的模式(在92337个记录中出现)。输入数据被拆分成大约64M的Block(M=15000),整个输出数据存放在一个文件中(R=1)。