数据挖掘微服务优化网页信息抓取工具

Web刮板是一个后台工具，利用Google Chrome无头浏览器进行网页抓取。要求Node.js版本需大于8.x或在Docker环境中运行。通过以下步骤启动API：手动克隆git仓库：git@github.com:digestoo/web-scraper.git，切换到目录web-scraper，运行npm install，设置端口为8080并启动npm。API支持环境变量设置：PROXY_URL用于代理网址，EXECUTABLE_PATH用于自定义Google Chrome路径（在chrome://version中可找到），USER_DATA_DIR指定用户配置文件路径，SLOW_MO用于指定操作减慢的毫秒数，HEADLESS=false可关闭无头模式，全局用户代理设置USER_AGENT。如在本地运行遇到问题，请参阅相关文档。