01大数据项目之Spark实时数据采集

本节内容将围绕大数据项目之Spark实时数据采集进行详细的知识点总结。离线计算是指通过批处理的方式计算已知的所有输入数据，数据在计算前已经全部就位，不会发生变化，数据量大且保存时间长，在大量数据上进行复杂的批量运算。实时计算是指通过流处理方式计算当日的数据，例如使用Spark Streaming等技术。实时计算需要通过代码，往往需要对接多种数据容器完成，相对开发较为复杂。