又是那么久没有更新了,我承认我太颓废了,我错了,我检讨……
在MSR自己做的proj用到的技术其实很无聊,其实就是一个random walk就没了,我在初期迅速做完预订计划的东西后,就开始找新东西做……现在想来,我还太欠缺分析能力,到intern最后回头去看那步的结果,发现其实很有问题,或许当时多花点时间分析,就能做出点有意思的东西了……之后又找了个更没前途的topic,这个topic选得太失败,于是到最后都没做出啥来。从整个过程中,我渐渐明白了motivation的重要,对于一个idea如果没有足够强的movitation,做到最后都不知道自己为什么要做,像我这样的人很容易就get bored,这种事其实在我身上已经发生过好几次了,可我竟然每次都没有好好总结,只是每次都觉得是自己的idea不够好,其实在做之前就应该好好想想为什么要这么做,这个解决了什么问题,为什么之前的方法不work而这个可能work,这么做可能成功的原因,失败的原因,多问问自己这个东西除了发paper还有什么意义……
当然,除了自己的proj,在MSR也看到很多其他proj,虽然很后悔没有多搭讪点人,而我们组的人做的东西我都不懂@@

关于machine learning,我很看好active learning。ssl那样随机采点标注样本其实不太make sense,既然可以有人肉去标样本,为什么要随机抽样标而不是挑出最可能有帮助的样本标呢……而现在active learning的实际算法不多,大家都喜欢去证bound,我觉得可能是因为这个只有intituation说去标哪些样本是可能有帮助的,希望能看到富有想象力的算法的出现……
 
另外平行训练也很有意思。我并不是说简单的把优化过程并行化,而是把训练数据分成10份,然后分别训练,最后再怎么合起来。跟jerry简单提了下,他的意思似乎是说其实还是能找到一个统一的目标函数的……不知道,嗯

hierarchical classification,虽然也有点人在做,但总觉得大家各自管各自的在做……怎么在图上做hierarchical 的propogation?和hypergraph似乎有点关系,但希望能做到任意层的……

怎么处理graph 上的噪点?觉得一个outlier会把错误传播到周围的点上去。而用l_0 norm(虽然不可能,但是可以用l_1 norm代替)一个outlier带来的影响不会太大……

这学期在旁听统计系的theory of probability,从测度出发讨论概率。虽然估计对自己是没啥用,但是觉得既然都在wisc了,不听点这种bt太浪费了……

这学期跟db组的新faculty, chris re做了independent study,大概是做高效的sequence inference,虽然听起来和machine learning很有关系,但估计最后会focus在怎么建index,怎么做优化上面,不过我觉得我数学基础这么薄弱,但是coding还行,基础算法也凑合,加上有些ml背景,可能做这个更合适点吧……退一万步讲,做点system好歹可以不让coding技能生疏,免得以后想当民工还没人要……