Hadoop主要应用于大数据量的离线场景,实际线上使用Hadoop的集群规模通常在上百台到几千台机器。在这种情况下,数据规模通常较小。基于MapReduce框架,Hadoop较难处理实时计算,主要用于日志分析等离线作业。此外,集群中通常存在大量作业等待调度,以最大化资源利用率。由于HDFS设计的特点,Hadoop适合处理文件块较大的数据,对于大量小文件处理效率较低。