最新实例
Cloudera CDH 5.9智能变电站保护规范安装包
Cloudera Manager 的离线安装方式挺适合网络条件差或者局域网环境用的,尤其是安装大版本 CDH 的时候,能省不少事。嗯,我这次搞的是 CDH 5.9,配合 Cloudera Manager 5.9,全离线安装,三台虚拟机能互相 ping 就行。 下载包的时候记得选好版本,像cloudera-manager-el6-cm5.9.0_x86_64.tar.gz 和 CDH-5.9.0-1.cdh5.9.0.p0.23-el6.parcel,文件名挺长,看着麻烦但其实蛮清晰的。manifest.json也不能少,Cloudera 靠它识别 parcels 版本。 安装方式上,cloud
Hadoop聚类神经网络算法研究与实现
基于 Hadoop 的大数据能力,刘珊珊的聚类神经网络算法实现,真的挺有意思的。整套方案结合了云计算和神经网络,用起来还蛮顺手的,尤其是在高维大数据场景下,效率还不错。 Hadoop 的分布式特性让你不用担心数据量大,只要你数据上得去,集群撑得住,神经网络跑起来也不卡。而且这套算法用了聚类的思路,挺适合做用户画像、推荐系统这种需求。 如果你本身对SOFM 神经网络感兴趣,可以看看这篇SOFM 基础算法,逻辑比较清晰。还有像多模态特征学习和Keras 参数计算这些资源,也能帮你把这个项目做得更实。 嗯,项目里面涉及的数据挖掘算法也不少,比如你可以搭配神经网络的数据挖掘简介来看看。实在想更系统地学
调度系统图形化配置大数据平台培训
调度的图形化配置功能,真的是做大数据平台绕不开的一环。支持环节添加、复制、拖拽这些常规操作不说,连上下级关系都能直接拖出来,配置流程清晰明了。你要是习惯用hadoop、shell、java之类的组件,也可以直接图形化搞定,复制粘贴一下就能跑,适合调试和快速出原型。
Ranger 2.0.0权限管理前端资源
拆分包的 ranger-2.0.0-admin.zip.001 是个还不错的前端资源,适合要用 Ranger 做权限管理的同学。UI 部分是纯前端构建的,清爽干净,逻辑也比较清晰,调试起来不太费劲。要注意哦,文件拆成了五份,得全下完才能解压,不然会报错。解压出来直接可以跑,适合参考和二开。
Master数据结构设计MapReduce调度组件
Master 的数据结构设计挺有意思的,尤其是它在 MapReduce 任务调度里扮演的“数据管道”角色。你可以理解成一个专门协调 Map 任务输出和 Reduce 任务输入的中转站,状态追踪也比较细,啥时候完成、谁在跑、哪个 Worker 失效了都记录得清清楚楚。容错机制也蛮靠谱的,像是 Worker 突然掉线,任务会自动回滚重跑,失败也能顶得住大规模崩溃。你只要专注写好 Map 和 Reduce 函数,剩下交给 Master 就行,挺省心的。
.NET程序员面试宝典与安全保障体系建设
安全保障体系的构建方案,挺适合在做政务平台的你参考下。内容围绕.NET项目在网络安全方面的实战需求写的,思路比较清晰,重点也在点上。比如从常见漏洞入手,一步步拆解怎么防守、怎么管理,属于比较系统那一挂。 对SQL 注入、数据库安全这类老生常谈的问题,文中还给了不少实操技巧。像防火墙+权限控制这种组合用法,实战中挺常用,文里也讲得蛮清楚。顺带还能跳转看看SQL 注入的防护措施,配套文章都安排上了。 平台安全不是单靠代码层能搞定的,安全管理那块也说得比较细。比如怎么设置访问级别,怎么做安全等级保护,这些对政府系统来说还挺关键的。要是你也在做类似系统,可以参考国家安全等级保护实施指南,内容蛮贴合场景
Hadoop 2.7.7本地伪分布式环境
Windows 上的 Hadoop 2.7.7 下载包,是大数据入门玩家的老朋友了。稳定、兼容、还能跑在本地,适合你一边敲代码一边理解底层逻辑。 Hadoop 的 HDFS 和 MapReduce配合得还挺默契的。前者负责数据存,分块存、多机备份,容错性不错;后者就干脆了,拆任务、跑并发,效率高。如果你搞不懂大数据是怎么“分布式”的,装一套来跑一跑最直观。 安装 Hadoop 2.7.7前,你得先把JDK 1.8+装好,JAVA_HOME也要配上。之后解压到比如C:\hadoop,设置HADOOP_HOME和PATH,这些都是跑通命令行的关键。 Windows 上跑 Hadoop,基本都是“伪
Hadoop 4.0中文权威指南
如果你想深入了解大数据和 Hadoop 生态系统,《Hadoop 权威指南_第四版_中文版》绝对是一本不可错过的好书。这本书对 Hadoop 的各个组件从基础到进阶做了全面,不仅仅是理论,多实战案例也可以你更好地理解如何应用这些技术。HDFS和MapReduce是它的核心,书里详细了它们的工作原理,比如如何高效地存储数据,如何在集群中大规模数据集。YARN、HBase、Hive等工具的也清晰,给你了一整套完整的大数据方案。最棒的是,这本书对于安装、配置和性能优化都有具体的指导,简直是每个大数据从业者的必备资料。,想学 Hadoop、用 Hadoop,这本书是你不容错过的学习资源。
Spoon 3.0用户手册Kettle中文指南
07_Spoon_3_User_Guide 中文手册是 Kettle 老用户的“救命文档”,手把手教你怎么用这个 ETL 神器搞定数据抽取、转换、装载。Matt 的 Kettle 名字起得也挺有意思——把杂乱数据都倒进一个“壶”里,按你设定的格式流出来。想想挺形象的哈。Kettle的 UI 界面是用 Spoon 做的,不是厨房用具,是它的图形工具。你可以拖拉组件搭流程,效率贼高,基本不用敲多少代码。如果你要从 MySQL 拉数据,转个格式,再灌进 Greenplum,那这工具就合适。配合gpload还能搞批量导入,速度也不差。文档里有不少细节讲得还挺实用,比如变量怎么设置、怎么做数据比对、全量
Elasticsearch 5.6.12本地破解版
elasticsearch-5.6.12 版本的压缩包,x-pack 已经是破解好的,license 能用到 2050 年,基本上拿来就能跑。打包好的x-pack插件已经动过手脚,换license的时候不需要再折腾 JAR 文件,省了不少事。适合你在本地搭环境或者搞测试用,启动后data目录还能删,干干净净。如果你用的是老版本的ELK,是 5.x 这一代,跟Marvel Agent这些配套工具也都能玩得转。嗯,配套的工具像elasticsearch-head也有,前后端一起看起来还挺爽。你要是嫌 license 管得太紧,又想研究下x-pack的权限控制和安全模块,这包就挺合适的。建议装好后先