暌违一年的更新, 最近用到NER相关的算法,简单记录一下,主要是HMM和CRF。感觉概率图比较牛逼。
DBSCAN & OPTICS
我如期来更新啦!!!聚类算法是很常用的一种算法,不过最常见的就是KMeans了,虽然很多人都会用,不过讲道理,如果是调用现成机器学习库里面的KMeans的话,我敢保证90%的人答不上来具体的是什么算法。相信我,库里的KMeans跟教科书讲的那个随机取初始点的KMeans不是一个算法哟~
因为KMeans依赖K,但是我怎么知道K要用多少呢?另外,KMeans受限于算法本身,对于球状的数据效果较好,但是不规则形状的就不行了。这种情况下,相对而言,基于密度的聚类算法就比较好用了。sklearn里面现在是放了一个DBSCAN,下一版会更新OPTICS。刚好最近都用了,这里把DBSCAN跟OPTICS算法复现一遍。
未来一段时间更新计划
年前换了个坑,结果一堆事情,那段时间烦心事也多,啥都没更新。大概拍了一下未来一段时间的更新计划。主要是5月以后的。
Progressive Growing of GANs
虽然我没看完李嘉图,但是也没闲着呀,我还是在写pggan的呀。代号屁股gan计划。我是不会承认我想拿pggan去生成大长腿的。
经济思想史读书笔记——李嘉图&马尔萨斯
古典经济学,李嘉图与马尔萨斯部分。主要是李嘉图,简直是个宝藏男孩。一个人引导了整个经济界,构建了引导经济思想一百年的理论框架。
文本生成
最近诸事不顺,情绪不佳。继续做文本生成的事情。之前用的Char-RNN存在一定的缺陷,那就是你需要给定一个prefix,然后模型就会顺着prefix开始一个个往下预测。但是这样生成的文本随机性是很大的,所以我们希望能够让句子根据我们的关键词或者topic来生成。看了几篇论文,大框架上都是基于Attention的,其他的都是一些小的细节变化。这里打算实现两篇论文里的框架,一篇是哈工大的Topic-to-Essay Generation with Neural Networks,另一篇是百度的Chinese Poetry Generation with Planning based Neural Networks。
2018年11月8号更新:认真看了一下百度的那篇paper,模型跟TAV的差不了太多,就是先用一个RNN把关键词做个双向的encoding,然后当做第一个词放进去训练。没什么兴趣弄了。
tiny XGBoost以及集成算法回顾
XGBoost是GBDT的一个超级加强版,用了很久,一直没细看原理。围观了一波人家的实现,自己也来弄一遍。以后面试上来一句,要不要我现场写个XGBoost,听上去是不是很霸气。
在开源代码的基础上进行了一点修改,大概跑通了,但是有些地方感觉有点诡异。后面会讲。
一个挂逼
挂逼是形容深圳三和人才市场里面一些生活极其困难的打工者,有时候也代表这个人死了。
Char-RNN生成古诗
尝试用char-RNN生成古诗,本来是想要尝试用来生成广告文案的,测试一波生成古诗的效果。嘛,虽然我对业务兴趣不大,不过这个模型居然把我硬盘跑挂了,也是醉。
日常的丧
日常很丧的各种不开心,小确丧。