Hadoop主要应用于处理大数据量的离线场景,一般而言,真正线上使用Hadoop的集群规模在数百到数千台机器之间。在这种情况下,处理T级别的数据也属于小规模。在MapReduce框架下,Hadoop较难处理实时计算,主要用于日志分析等离线作业。此外,集群中通常存在大量作业等待调度,以确保资源充分利用。由于HDFS设计的特性,Hadoop适合处理文件块较大的文件,对大量小文件的处理效率较低。