碎碎念

好久不更新,四月重新开始!

暌违一年的更新, 最近用到NER相关的算法,简单记录一下,主要是HMM和CRF。感觉概率图比较牛逼。

Read more »

我如期来更新啦!!!聚类算法是很常用的一种算法,不过最常见的就是KMeans了,虽然很多人都会用,不过讲道理,如果是调用现成机器学习库里面的KMeans的话,我敢保证90%的人答不上来具体的是什么算法。相信我,库里的KMeans跟教科书讲的那个随机取初始点的KMeans不是一个算法哟~

因为KMeans依赖K,但是我怎么知道K要用多少呢?另外,KMeans受限于算法本身,对于球状的数据效果较好,但是不规则形状的就不行了。这种情况下,相对而言,基于密度的聚类算法就比较好用了。sklearn里面现在是放了一个DBSCAN,下一版会更新OPTICS。刚好最近都用了,这里把DBSCAN跟OPTICS算法复现一遍。

Read more »

年前换了个坑,结果一堆事情,那段时间烦心事也多,啥都没更新。大概拍了一下未来一段时间的更新计划。主要是5月以后的。

Read more »

虽然我没看完李嘉图,但是也没闲着呀,我还是在写pggan的呀。代号屁股gan计划。我是不会承认我想拿pggan去生成大长腿的。

Read more »

最近诸事不顺,情绪不佳。继续做文本生成的事情。之前用的Char-RNN存在一定的缺陷,那就是你需要给定一个prefix,然后模型就会顺着prefix开始一个个往下预测。但是这样生成的文本随机性是很大的,所以我们希望能够让句子根据我们的关键词或者topic来生成。看了几篇论文,大框架上都是基于Attention的,其他的都是一些小的细节变化。这里打算实现两篇论文里的框架,一篇是哈工大的Topic-to-Essay Generation with Neural Networks,另一篇是百度的Chinese Poetry Generation with Planning based Neural Networks


2018年11月8号更新:认真看了一下百度的那篇paper,模型跟TAV的差不了太多,就是先用一个RNN把关键词做个双向的encoding,然后当做第一个词放进去训练。没什么兴趣弄了。

Read more »

XGBoost是GBDT的一个超级加强版,用了很久,一直没细看原理。围观了一波人家的实现,自己也来弄一遍。以后面试上来一句,要不要我现场写个XGBoost,听上去是不是很霸气。

在开源代码的基础上进行了一点修改,大概跑通了,但是有些地方感觉有点诡异。后面会讲。

Read more »

挂逼是形容深圳三和人才市场里面一些生活极其困难的打工者,有时候也代表这个人死了。

Read more »

尝试用char-RNN生成古诗,本来是想要尝试用来生成广告文案的,测试一波生成古诗的效果。嘛,虽然我对业务兴趣不大,不过这个模型居然把我硬盘跑挂了,也是醉。

Read more »