最新实例
Hadoop集群搭建教程
搭 Hadoop 集群的文档看了不少,这份叫02Hadoop 集群搭建.pdf的教程还挺扎实,适合你想一步步动手搭起来的那种场景。讲了硬件需求、各类节点角色,还顺带说了下SSH 免密怎么搞,细节挺全,读下来基本不会漏坑。 文档里配置core-site.xml、hdfs-site.xml这些参数的部分比较实用,不光告诉你怎么写,还解释了为啥这么配。像JAVA_HOME、HADOOP_HOME这些环境变量也都有提到,手把手的感觉,蛮适合入门搭建的。 还有一点值得夸的,集群启动流程写得清楚——先格式化 HDFS,再启动 NameNode 和 DataNode,是 YARN 部分的 ResourceM
Hadoop序列化机制详解
Hadoop 的序列化机制,真的是大数据开发里绕不开的一环。用Writable接口把对象转成字节流,传输、存储两不误。嗯,效率也挺高,适合节点多、数据量大的场景。 写write(DataOutput out)、读readFields(DataInput in),两个方法搞定序列化和反序列化,逻辑还挺清晰的。像IntWritable、Text这些内置类型,省心好用。想自定义?写个UserWritable,字段随你定义,还能实现排序,挺灵活。 说到细节,像整数序列化,Hadoop 还有个比较省空间的玩法,叫VIntWritable,小数据用小字节,挺贴心的。嗯,节省带宽也挺重要的对吧? 不过注意哦
Markdown 2.6.11文档格式库
Markdown 的老版本Markdown-2.6.11-py2.py3-none-any.whl,还挺实用的,是跟大数据插件配合使用的时候,写文档、做转码都挺顺。你要是做Python、Spark或者经常数据那一块的,装个这个,轻巧好用,兼容性也不错。 Markdown 格式的好处你懂的,轻便、结构清晰,还能和各种文档系统打通。像平时写爬虫、做Live Script转Markdown,都能省不少事儿,文件保存、格式转换一条龙搞定,响应也快。 我平时用它Matlab代码、写学术论文的模板啥的,格式干净,语法也熟,改起来也不费劲。更方便的是,它还能和Pandoc配套用,输出 PDF、HTML 都行
Iceberg大数据表格式与技术学习资料
Iceberg 的大数据表格式设计挺聪明的,尤其适合超大数据量。你知道吗?之前常用的那些文件格式,比如Parquet、ORC,虽然也能做压缩、跳过读取啥的,但面对真正的大规模数据表,它们还是力不从心。 Iceberg 的元数据管理干净利落,独立又支持ACID 事务,不会像Hive Metastore那样一边靠文件系统一边靠元数据,改个表还担心一致性问题。 快照机制也挺好用的,做并发写入、删除的时候,读操作还能维持一致性,响应也快,不需要动整个表。比如你今天查昨天那一版数据,直接切快照版本就行,挺省事。 再比如动态分区裁剪,不扫无关数据,查询效率高多了。你做Spark、Flink任务的时候,真的
Zookeeper Java开发示例
Zookeeper 的 Java 开发示例,算是我用过比较清晰、上手快的一套资源。你要是刚好在做分布式应用,比如搞个配置中心、服务注册啥的,这玩意儿还挺靠谱。代码写法也蛮直观的,常用的增删改查都有,连事件监听都封装得不错。文档和例子结合得挺好,不是那种“只有 API 没场景”的写法。 Zookeeper 的节点结构像是个文件夹系统,ZNode 就是一个个目录,每个可以存点儿数据还能挂子节点。临时节点掉线就没,持久节点得你自己删,记住就好。 要操作 Zookeeper,ZooKeeper类是入口,初始化的时候得填上服务器地址、超时时间、还有个回调函数,监听连接变化挺方便: ZooKeeper z
Hadoop 2.7.2分布式计算平台
Hadoop 2.7.2 的完整安装包,适合在 CentOS 上练手的那种,配置文件啥的都带了,省去你一顿百度的麻烦。嗯,里面的东西挺全,像HDFS、MapReduce、YARN这些核心组件都有。 分布式存储的 HDFS,其实就是把大文件切成块,丢到不同机器上,速度快,还不容易挂。你可以设定副本数,防止机器挂了数据丢了,挺稳的。 MapReduce的方式也比较直白,写个 WordCount 脚本就能跑起来了,统计个文本词频,适合用来测试集群是不是正常。逻辑也不复杂,一个 map 一个 reduce,熟悉一下思路就行。 还有YARN,算是资源调度大管家吧,容器分配、作业调度全靠它,尤其在多节点测
Oozie Workflow案例集
Oozie 的 workflow 案例集,比较全,适合你开发调度流程的时候参考。里打包的是 Cloudera 贡献给 Apache 的 Oozie 官方案例,用来跑Hadoop作业的。嗯,说白了就是你不用从 0 搭流程了,直接拿来改挺省事儿。 Oozie 本身是跑在Tomcat里的Java Servlet程序,用XML写 workflow,比较像你在画流程图那种思路——定义干啥、顺序怎么走。你要是做过Airflow或者Azkaban,会发现它们思路也差不多。 这个压缩包里包括了各种类型的 workflow 案例,比如MapReduce、Hive、Shell任务,连coordinator和bun
Hadoop思维导图详解
Hadoop 的思维导图整理得真是挺清楚的。每一块内容都分得细,像是 HDFS、MapReduce、YARN 这些模块都有对应的知识点归纳,看一眼就能理清楚。对于刚入门或者复习的人来说,挺省事的,不用翻一堆资料。 结构上的分类也蛮合理,逻辑是按“Hadoop 核心→生态组件→使用场景”这样铺开的。像你在搭建分布式集群时,就能对照思维导图快速查缺补漏,哪里没配好,一看就知道。 而且不光有框架,内容里还带着不少实际经验,比如HDFS 副本机制、作业调度这些点都提到了,蛮接地气的,跟只讲理论的资料不太一样。适合动手的你看着上手。 如果你想更深入,可以搭配下面这几篇文章一起看,像分布式系统在大数据中的
AS深圳2018-超大规模软件架构度量与演进
架构腐化、交付变慢、需求难落地……你是不是也经常碰到这些大项目常见的“老大难”?吴文胜在《超大规模软件架构度量与演进的思考和实践》这篇分享里,讲了华为怎么搞自动化架构度量、怎么“看护”架构不跑偏,还真挺有意思的。尤其是用了像 UADPGuarding 这样的工具,配合 架构可视化 和 重构策略,让整个团队都能站在同一张图纸上说话。不追求精确度量,而是靠趋势判断演进方向——这一点我觉得适合咱们平时的项目实战。如果你正在做大型系统,又苦于维护难度大,不妨看看这篇,至少能启发你几个思路。
HiveService老版服务组件
Hive 的老服务 hive-service.jar 其实现在用得不多了,主要是因为从 Hive 0.15 开始就准备下线 HiveServer,官方也推荐你切到 HiveServer2,更稳定也更安全,兼容性也不错。 早期跑 UDTF 的时候要用 hive-service.jar,现在在 HiveServer2 里也能跑,就是得稍微配一下环境,不然会踩坑。具体怎么弄,可以看看这篇文章:UDTF 函数在 HiveServer2 中不生效的问题,写得蛮详细。 你如果还在用旧版的 Hive,那 hive-service.jar 还是能派上用场的,比如快速测试、兼容老项目、搭本地服务啥的。只不过别拿