最新实例
Apriori关联规则挖掘算法基本概念与算法详解
Apriori 算法的入门材料里,chap06 关联-基本概念和算法 95.pdf算是蛮经典的一份。教材是陈封能等人翻译的老版本,虽然时间久了点,但讲得还挺系统,尤其适合刚接触关联规则挖掘的同学。 教材里的Apriori 算法部分,逻辑清晰,例子比较接地气,比如超市购物篮那块,讲怎么找出“买了牛奶也会买面包”这种模式,挺好懂的。支持度、置信度这些概念也都解释得还行,不会太抽象。 要说实用,那还得看搭配的资源链接。有个讲剪枝的文章(Apriori 高效剪枝关联规则挖掘算法),讲怎么加快挖掘过程,比较适合你做项目时优化效率用。还有一篇讲FP-Growth的(关联规则算法比较 FP-Growth 与
基于划分的聚类算法
聚类的划分算法挺适合入门选手上手的,思路清晰,操作也不复杂。把一堆数据分成几个‘圈子’,圈内的像,圈外的不像,听起来就像是在组织社群,对吧?而且它是无监督学习,不需要你事先告诉它分类标准,比较省心。 划分型的聚类方法,比如K-Means,其实用起来还蛮顺的。数据维度别太高、差异别太模糊,用起来效果还不错。你只要告诉它你想分几类,它就自己帮你动手分好。 做图像?可以参考下这篇图像相似性评估;搞Python?推荐你看看Python 相似性度量的完整实现,代码清晰,图解直观。 还有一个建议哦:如果你是初学者,不妨先在WEKA里拖拖点点试试,像这篇关于无监督聚类的小技巧就挺实用的。熟悉流程后再去写代码
i6100s PDA使用手册
PDA 的使用手册,内容比较实在,适合动手能力强的你。里面的功能都挺细的,从基础操作到设置优化都有提到,哪怕你是第一次接触,也能一步步跟着走。PDF 格式也方便,放平板或手机上看都挺顺手。
Elasticsearch IK 5.2.0中文分词插件
Elasticsearch 的 IK 分词插件,蛮适合搞中文搜索优化的朋友们。elasticsearch-analysis-ik-5.2.0.zip里头装着它的源码和依赖,结构还挺清晰。elasticsearch-analysis-ik-5.2.0.jar是主角,用来中文文本,像“精确模式”“全模式”这些都能选。 IK 这个分词器,用的是字典分词 + 动态加载 + 自学习,运行时能根据文本来动态优化结果。适合需要对中文语义做细粒度的场景,比如搜索建议、关键词高亮、索引优化等。 插件还依赖了一些老牌 Apache 库,像httpclient、commons-codec这些,负责求和日志,运行起来
mmh3 2.0Python 3.6哈希模块
Python 3.6 的哈希工具里,mmh3 模块还挺实用的。压缩包里两个文件——mmh3.cp36-win_amd64.pyd和mmh3-2.0-py3.6.egg-info,直接丢进C:\Python36\Lib\site-packages\目录就能用了,省事多了。 模块用起来也挺,导入后一个mmh3.hash('Hello')就能拿到哈希值。速度快、分布还均匀,搞数据去重或者当哈希键用合适。 hash()函数是最常用的,支持字符串、整数这些基本类型,参数signed=False就能返回个正数。想要字节就用hash_bytes(),批量可以用hash_array()。想得周到,接口也不复杂
灰色预测MATLAB程序GM(1,1)模型
灰色预测的 MATLAB 程序真挺实用,尤其是用在那种数据点少、信息又不全的场景,效率还蛮高。用的是比较经典的 GM(1,1) 模型,逻辑也清晰,整个结构看着舒服,适合想快速上手灰色建模的朋友。 程序用 MATLAB 写的,核心逻辑就是先做个累加,把原始序列转换一下,搞个微分方程建模。整体上就是从原始数据出发,推一个趋势出来。适合做短期预测,比如销量、能耗这种不太规律的东西。 你只要丢一个数列进去,比如 [5 6 8 10],程序就能自动给你把模型参数都算好。像 afor 和 ufor 这俩参数,是用最小二乘法估出来的,精度还不错。 后面会根据模型公式算出一个平滑的预测序列,用 exp 来拟合
Real-Time Parallel Hashing on the GPU并行哈希构建方案
GPU 加速的大型哈希表构建真的是一把好手。《Real-Time Parallel Hashing on the GPU》这篇文章讲得挺实在,主要是用 CUDA 来玩并行哈希,性能提升猛。你如果平时大数据集合、图形识别那种应用,读一读准没错。 CUDA 的并行能力在这篇文章里被用得挺巧。它不是简单堆线程,而是用两种哈希策略——稀疏完美哈希和布谷鸟哈希,还混搭了一种新方法来权衡构建速度、内存占用和查询效率。 最有意思的是,哈希表还能实时构建,能扛下百万级别的数据,不拖慢应用。比如用在 3D 表面交集计算或图像匹配那种场景,响应也快,数据也稳,适合做实时图形。 文中还提了几个细节,比如布谷鸟哈希用
Python爬取Ajax JSON数据并存入Excel
Ajax 网页的数据接口,用 Python 爬起来还挺顺的,尤其是那种返回 JSON 格式的,直接拿来特方便。像我最近搞的一个项目,就是抓某个疾病下的SNP 和基因的关系数据,全程基本不用点页面,后台接口响应也快,配合requests和json模块,几行代码就搞定。 隐蔽的 HTTPS 接口,一般都是浏览器开发者工具里 Network 扒出来的。重点是找 XHR 求,有时候需要翻翻 Headers,或者调一下 Params 参数,嗯,动点脑子,常有惊喜。 数据拿到手,存成Excel也是轻轻松松,pandas直接一条to_excel就完事。你甚至可以顺便加个datetime的时间戳命名,方便版本
BGSA二进制引力搜索算法Matlab实现
二进制版的引力搜索算法(BGSA)程序,还挺有意思的。它其实就是经典的 GSA 算法在离散场景下的一个变形,适合二进制优化问题,比如特征选择、组合优化那类问题。代码是用 Matlab 写的,结构清晰,变量命名也比较规范,新手都能看得明白。 Matlab 的 BGSA 实现用了比较标准的引力模型,把个体位置、速度、质量都离散化了,效果还不错。和传统 GSA 相比,BGSA 更适合像 0-1 背包问题这种只能取 1 或 0 的情况。运行下来,结果收敛得挺快,调参空间也大。 想深入了解原理,可以看看这篇论文:BGSA: Binary gravitational search algorithm。写得
ITTI算法MATLAB视觉显著性实现
ITTI 算法的 MATLAB 实现,真的是研究视觉显著性比较经典的一套思路。人类注意力模型里比较早期也比较有代表性的那种,核心就是三个通道:色彩对比、强度对比、边缘检测。每一步都挺清楚的,代码写得也不复杂,调试的时候心态比较稳。配色对比的,用的是像素和周围邻域做差值,色差大的地方显著性就高。边缘检测那部分,Sobel、Canny 之类的常规方法都能套进去。itti_simpsal这个函数应该是整合了各部分,直接丢图进去就能出结果,效率还不错。这套算法用在图像摘要、视频、交互式编辑这些场景都蛮合适的。比如说快速找出图片里最吸引人的地方,或者视频里某一帧突然亮眼的画面——就挺直观的。而且 MAT