最新实例
Hadoop 2.7.7本地伪分布式环境
Windows 上的 Hadoop 2.7.7 下载包,是大数据入门玩家的老朋友了。稳定、兼容、还能跑在本地,适合你一边敲代码一边理解底层逻辑。 Hadoop 的 HDFS 和 MapReduce配合得还挺默契的。前者负责数据存,分块存、多机备份,容错性不错;后者就干脆了,拆任务、跑并发,效率高。如果你搞不懂大数据是怎么“分布式”的,装一套来跑一跑最直观。 安装 Hadoop 2.7.7前,你得先把JDK 1.8+装好,JAVA_HOME也要配上。之后解压到比如C:\hadoop,设置HADOOP_HOME和PATH,这些都是跑通命令行的关键。 Windows 上跑 Hadoop,基本都是“伪
Hadoop 4.0中文权威指南
如果你想深入了解大数据和 Hadoop 生态系统,《Hadoop 权威指南_第四版_中文版》绝对是一本不可错过的好书。这本书对 Hadoop 的各个组件从基础到进阶做了全面,不仅仅是理论,多实战案例也可以你更好地理解如何应用这些技术。HDFS和MapReduce是它的核心,书里详细了它们的工作原理,比如如何高效地存储数据,如何在集群中大规模数据集。YARN、HBase、Hive等工具的也清晰,给你了一整套完整的大数据方案。最棒的是,这本书对于安装、配置和性能优化都有具体的指导,简直是每个大数据从业者的必备资料。,想学 Hadoop、用 Hadoop,这本书是你不容错过的学习资源。
Spoon 3.0用户手册Kettle中文指南
07_Spoon_3_User_Guide 中文手册是 Kettle 老用户的“救命文档”,手把手教你怎么用这个 ETL 神器搞定数据抽取、转换、装载。Matt 的 Kettle 名字起得也挺有意思——把杂乱数据都倒进一个“壶”里,按你设定的格式流出来。想想挺形象的哈。Kettle的 UI 界面是用 Spoon 做的,不是厨房用具,是它的图形工具。你可以拖拉组件搭流程,效率贼高,基本不用敲多少代码。如果你要从 MySQL 拉数据,转个格式,再灌进 Greenplum,那这工具就合适。配合gpload还能搞批量导入,速度也不差。文档里有不少细节讲得还挺实用,比如变量怎么设置、怎么做数据比对、全量
Elasticsearch 5.6.12本地破解版
elasticsearch-5.6.12 版本的压缩包,x-pack 已经是破解好的,license 能用到 2050 年,基本上拿来就能跑。打包好的x-pack插件已经动过手脚,换license的时候不需要再折腾 JAR 文件,省了不少事。适合你在本地搭环境或者搞测试用,启动后data目录还能删,干干净净。如果你用的是老版本的ELK,是 5.x 这一代,跟Marvel Agent这些配套工具也都能玩得转。嗯,配套的工具像elasticsearch-head也有,前后端一起看起来还挺爽。你要是嫌 license 管得太紧,又想研究下x-pack的权限控制和安全模块,这包就挺合适的。建议装好后先
Hadoop Eclipse Plugin 2.7.7官方编译版
hadoop 的 eclipse 插件,版本 2.7.7 的,算是比较稳定的官方编译版。用的是hadoop-2.7.7配上较新版的 Eclipse,兼容性还不错,跑 MapReduce 任务没啥大问题。eclipse 里的插件能让你直接在 IDE 里写、调试 Hadoop 作业,省了不少命令行操作,开发体验一下子就提升了不少。像我平时写WordCount这种小例子,直接右键运行,响应也快。不过要注意哈,环境得对得上。Hadoop 版本最好就是2.7.7,别用高版本,不然插件有点不听话。Eclipse 推荐用2020-09或2021-03这些比较新的版本,插件能正常加载。整个插件是打包好的had
WEKA无监督聚类删除类标号技巧
无监督聚类的删除类标号技巧,挺适合做特征抽取前的预,尤其你想丢掉已有标签让模型自己去发现结构。用的是WEKA这套老牌工具,界面操作上手快。你只需要把有标签的数据丢进去,选好聚类算法,比如EM或SimpleKMeans,运行后就能把原来的类标忽略掉,得到一组纯聚类的结果,后面你拿它去做特征可视化也方便。页面讲得还挺详细,步骤截图也清楚,新手照着做问题不大。如果你手上数据标签不靠谱,或者你本来就想试试模型自己分群的效果,这方法还挺值得一用。
Hadoop 2.6.4Windows版VS2015编译
Windows 10 下用 VS2015 编译的 Hadoop 2.6.4,还挺适合想在本地环境里跑大数据项目的你。虽然 Hadoop 本身更偏 Linux,但 VS2015 这个老牌工具配上点配置技巧,也能把它搞定,而且 bin 目录都能直接拿来用,省了不少麻烦。编译过程中你得搞定 JDK、Build Tools 之类的依赖,还得改点代码,路径啥的要注意下,Windows 不认那些 Linux 写法。整个流程下来,其实也蛮有成就感的,关键是能在熟悉的系统里搞定 Hadoop,平时跑点 MapReduce、试试 HDFS 啥的都挺方便的。对了,如果你也在玩 TensorFlow C++、PyS
Hadoop按日期统计访问次数与测试数据
Hadoop 的日志用起来还挺香的,尤其是你想按日期统计访问次数的时候。这篇资源手把手教你怎么搞定,从预日志,到写 MapReduce 程序,再到测试数据验证,流程讲得比较清楚,而且用的还是常见的网站访问日志例子,落地性强。代码结构也简单,逻辑不绕,你稍微有点基础就能跟上。配套测试数据也挺实用,拿来一跑就知道结果对不对,省了不少试错时间。如果你正在折腾 Hadoop 访问日志,强烈建议收藏一下。
BDA大数据用户画像技能体系图
用户画像的技能体系图挺清晰的,适合刚入门大数据方向的前端或者数据工程师看看。图里基本把整个用户画像构建流程都串起来了,从数据采集、清洗,到标签体系,再到与应用,层次分明,能快速理清思路。 用户行为的套路说实话蛮多,但想做得好,离不开一个扎实的用户画像体系。这张图就像一本速查手册,帮你理出各个环节该干嘛、怎么干,比如标签体系的设计,不少人第一反应是枚举,但其实更推荐用分层+多维度拆解的方法,图里也有暗示这一点。 哦对了,如果你是做精准营销的,图中提到的用户分群跟行为偏好提取那块可以重点看。比如针对游戏行业,常用的 RFM 模型怎么落地?图里那几个模块串起来就是一条实用的路径。 想深入的可以顺着这
Hadoop MapReduce Cookbook实战食谱
大数据的老炮们,Hadoop MapReduce的实战经验少不了这本《Hadoop MapReduce Cookbook》。这不是一本理论书,而是一本你翻一页就能上手干活的“食谱书”,适合已经接触过 Hadoop 但想深入玩的你。每个章节基本就是一个场景,像是如何大型日志、如何优化作业效率,配方清晰,代码直接,问题的效率蛮高。遇到类似问题的时候,直接翻这书,比 Google 都快。PDF 高清完整版还能下,书里带案例、代码段,边学边练,效率比较高。对刚上手的同学也挺友好,不绕弯子。再配合网上那个配套的 Hadoop 视频教程,学起来事半功倍。作者 Srinath Perera 可是 Apach