基于Kafka的远程服务器网页文件接入本地技术方案及Flume+Kafka调研

第一章涉及将对方的网页文件接入我方服务器，每个文件需记录网站和采集时间等信息。利用消息队列将多个远程服务器上的数据文件源源不断地接入到本地服务器。数据文件为下载的网页，传输过程需携带网站和下载日期等信息。当前讨论使用Kafka作为消息队列。第二章的基本方案包括：1、编写远程服务器程序，持续读取文件内容并生成字符串，再加入网站和下载日期等信息，形成JSON格式字符串，通过Kafka的生产者API写入。2、JSON数据格式设计如下：{“source”: “来源网站名”, “filename”: “html文件名”, “download-date”: “下载日期”, “content”: “html文件的完整字符串”}。消息主题设计为一个网站对应一个topic，映射到本地的一个文件夹。若只传输文件而不添加网站和下载日期信息，则使用Flume更为便捷，但添加信息时则不适合Flume，类似主题订阅的功能。对网页数据文件顺序性的需求较高，Kafka单分区支持消息有序性，多分区需进一步研究确保消息顺序的方案。