楼主: 王楠w_n

【大话IT】如何用算法学习判定“红楼梦(下)”原作者?

[复制链接]
论坛徽章:
571
NBA季后赛纪念徽章
日期:2012-06-25 12:19:11洛杉矶快船
日期:2014-06-16 11:45:27NBA常规赛纪念章
日期:2013-04-22 11:49:35NBA季后赛纪念徽章
日期:2011-06-13 11:34:51NBA常规赛纪念章
日期:2011-04-15 13:34:11NBA季后赛纪念徽章
日期:2013-06-21 14:52:05NBA常规赛纪念章
日期:2012-04-27 16:07:05生肖徽章:羊
日期:2014-08-15 14:12:01ITPUB9周年纪念徽章
日期:2016-10-28 17:00:11ITPUB9周年纪念徽章
日期:2016-10-28 17:00:11
11#
发表于 2017-3-16 11:50 | 只看该作者

使用道具 举报

回复
论坛徽章:
2110
亚特兰大老鹰
日期:2015-01-05 11:33:18亚特兰大老鹰
日期:2015-01-05 11:33:18亚特兰大老鹰
日期:2015-01-05 11:33:18亚特兰大老鹰
日期:2015-01-05 11:33:18亚特兰大老鹰
日期:2015-01-05 11:33:18亚特兰大老鹰
日期:2015-01-05 11:33:18亚特兰大老鹰
日期:2015-01-05 11:33:18亚特兰大老鹰
日期:2015-01-05 11:33:18亚特兰大老鹰
日期:2015-01-05 11:33:18亚特兰大老鹰
日期:2015-01-05 11:33:18
12#
发表于 2017-3-18 08:41 | 只看该作者
楼主,你知道的太多了

使用道具 举报

回复
论坛徽章:
345
ITPUB社区千里马徽章
日期:2013-06-09 10:15:34ITPUB社区12周年站庆徽章
日期:2013-08-12 09:34:36ITPUB社区12周年站庆徽章
日期:2013-08-20 11:30:11凯迪拉克
日期:2013-09-12 15:56:12ITPUB社区12周年站庆徽章
日期:2013-10-17 13:56:59一汽
日期:2013-11-14 21:55:12技术图书徽章
日期:2013-11-19 14:47:26红旗
日期:2013-11-24 12:29:47三菱
日期:2013-11-25 11:21:19保时捷
日期:2013-11-27 09:15:09
13#
发表于 2017-3-20 10:07 | 只看该作者
不懂算法,但是觉得应该是用递归一类的算法来解决这个问题。

1.如何用算法学习判定“红楼梦(下)”原作者?您是否有更好的思路。
证明一个理论的判定问题可解,只需给出一个算法,并证明这算法就是所要求的,问题就解决了。要证明一个理论的判定问题是不可解的,首先需要把算法(机械程序)概念精确化,并给出算法概念的严格的数学定义,使一切算法的类成为明确的数学对象,从而能用严格的数学方法证明对某个理论来说不存在解决它的判定问题的算法。判定问题的研究推动了对算法理论或称可计算性理论的研究,促进了递归函数论(见递归论)和图林机器理论的建立。

2.如何做好机器学习、数据挖掘工作?需要设计哪方面的语言和算法学习?(可引荐相关专业图书,以及具体算法的学习)
每个人的基础不同起点也不同,需要学的东西也完全不一样。先说我的观点:不要想一下子吃成一个胖子;很多时候,想吃的越多反而什么也消化不了。
让我们先看一道面试题(非原创):一条路上有N棵树,每棵树都有两个指标,一个是位置a_i(是整数),一个是体积w_i(是整数),现在要把这些树砍下来,运到K个仓库,我该如何选择这些仓库的位置(也是整数),使得搬运的成本尽量小呢?假设理想情况下,每棵树的搬运成本为树的体积 x 搬运的位移^2。
如果你看完这个题目,不能条件反射的告诉我你的思路,你其实并没有真正懂什么是聚类算法(K-means)。每个机器学习算法,犹如这道题一样具有两面性,一面是算法,也就是怎么算;一面是优化目标,为什么这么算。不能区分的看待机器学习的两面性,就不能明白为什么一群号称做机器学习研究的人整天却在玩数学。

3.机器学习应该准备哪些数学预备知识?
该熟练掌握的东西包括:
线性代数(线性空间,矩阵计算,张量)
数值数学(数值代数,数值分析,线性规划,二次规划,凸优化理论,常见的数值优化算法)
概率论和统计(没有这个基础,后面学概率图模型,统计计算都无从谈起)
实分析和泛函的基础(这块内容有助于提升抽线思维的能力,一些经典结论对之后一些理论的理解很有帮助,比如RKHS)
有了这个基础,我们再来看机器学习都有哪些东西,其实真心不多,看我用一个知乎回答就告诉你,
最简单的当然是从分类器(classification)谈起了。总结一下,学习这些东西要先知道哪些数学内容呢?
Naive Bayes:真的只需要懂一点概率论就行了。
Linear Discriminant Analysis:这个你只需要知道什么是多变量Gaussian分布。
Logistic Regression:如果知道线性回归和广义线性回归,LR也不是什么特别的东西。如果知道最大熵原理,并能从它推导出LR那说明你对LR的理解又更深入了。
Linear SVM:这个稍微复杂一点,因为问题的formulation需要先理解max-margin原理。而具体的算法实际上就只是经典的二次规划和凸优化内容。
Kernel SVM:要真正理解这个或许需要先明白什么是RKHS。然后其他算法部分只是仿照Linear SVM的简单推广。RKHS相关内容可以参照umiacs.umd.edu/~hal/doc
Adaboost:这个东西如果只需要知道算法过程,是很简单的东西。但是如果你能明白为什么这么做,在什么假设下这么做会收敛到最优解,那你的理解也非常不错了。
Decision Tree:有两个需要了解CART 和 c4.5。这个很简单,没什么好说的,但是你能不能高效的实现它们呢?
Neural network:这个是我见过最傻的模型,你要知道怎么做优化,乃至怎么做随机优化,结果看天吃饭。
再来看一些非监督模型,比如经典的有
数据处理与可视化:PCA,LDA,MDS,以及其他“高大上”但不一定work的manifold learning算法
聚类算法,以及如何评价聚类结果
稀疏编码:如何把一个带LASSO的问题转化成线性约束?有哪些别的更快的方法求解LASSO。
以上这些东西,算是入门性质的。本科毕业后大概一年左右,这些东西我就基本熟悉了。要学习这些东西,看一些教材自然是好的,但是书里废话比较多呢,而且一本书的作者知道的东西毕竟有限,我都是倾向直接从维基出发找资料看的。说实话,现在很少会自己去实现这些算法了,这些经典算法都有现成的开源工具。事实上要写一个高效的Linear SVM也不是很容易的事情。
书分为两种,一种书看完了就是看完了,你学到了一堆技能,但却不能用这些技能产生新的知识,面对问题也不能因地制宜,如果是这样学估计只能用来应付找工作面试吧;另一种书看完了才是学习新东西的开始,你学到了如何读懂别人的论文,如何开发新的知识,如何根据情况选择和调整算法。
概率图模型(Probabilistic graphical model):我是在Coursera上学习概率图模型这门课的,讲得真的非常好,正打算过二周目。学完这个课,掌握了图模型的设计,推断,和采样方法之后,就可以开始学习两个核心的机器学习模型,一个是Latent Dirichlet Allocation(LDA),常用于文本处理;一个是Probabilistic Matrix Factorization(PMF),常用于推荐系统。
统计计算(Statistical computing):这个课系统的介绍了数值积分方法,Monte Carlo方法(importance sampling, MCMC,Sequential/Particle MCMC,bootstrap),EM/MM。学完这门课,你能对这个领域的工具有个全局性的了解,明白每个工具的利弊,它们产生的历史来源,从而在具体问题中正确的选择使用它们。
有了这些工具,你会发现大部分research的工作都是在这些细分领域做一些简单的扩展。比如Bayesian PMF(ICML’08)这篇文章几乎就完全是MCMC在PMF的应用。话说回来,Research大部分时候就是以这样一种循序渐进的方式进行的,把一些现成的idea排列组合。
深度学习(Deep learning):说实话我刚开始接触这块内容发现,这尼玛就是传说中的黑科技啊。你不知道模型里面发生了什么,好坏都是看天吃饭的感觉。为了搞清楚这个,我决定重头开始实现神经网络。(代码在bobye/neuron · GitHub )前前后后花了近半年的时间,在实现的过程中,我学习了构造和训练神经网络的各个细节。我是从Stanford这个Tutorial开始学习的UFLDL Tutorial 课程资料里提供了Matlab的源码,不过我喜欢重新造轮子,那个时候恰好在学习Scala,就用Scala重写了一个神经网络的库(这个语言的特性非常适合写神经网络的算法)。
近几年深度学习的主流被深度卷积网络代替,这种监督学习的算法虽然对某些问题十分有效,但是数学上并不是特别神奇的东西,我还是比较关注那些非监督的神经网络。
优化(optimization):没有优化算法,任何机器学习模型都是空中楼阁,如何用更高效的优化算法,如何trade-off 计算时间和准确度,如何把已有问题scale到更高规模的数据上一直都是“优化大师们”做不完的工作。这也是一个非常大的分支,我觉得现在比较流行的两个大类是随机梯度优化和ADMM。前者用来解决大规模非约束优化问题,现实情景用的很多,但我们对它知道的很少;后者用来解决带约束问题,有很多变体。此外,优化大家庭也又有很多别的成员,这时候我要推荐的资料包括J Nocedal的numerical optimization这本书,讲的内容非常充实。此外ADMM的内容当然看Boyd巨牛11年的Tutorial paper。
PAC学习理论(PAC Learning):这个理论已经相对古老了,它的历史价值很大,应用价值很有争议,但是一直有人在继续这个方向的工作,并试图用它来构造新的模型,所以还是有必要知道的。推荐一下最近的新书:Understanding Machine Learning: From Theory To Algorithms.
非参数贝叶斯统计(Non-parametric Bayesian statistics):这个方向还非常年轻,有很多需要挖掘的东西,也是我PhD的一个重要课题。

使用道具 举报

回复
论坛徽章:
151
授权会员
日期:2005-11-16 17:49:25世界杯纪念徽章
日期:2006-07-20 13:19:20ITPUB新首页上线纪念徽章
日期:2007-10-20 08:38:44生肖徽章2007版:龙
日期:2008-11-25 11:15:28生肖徽章2007版:羊
日期:2009-06-02 18:18:38生肖徽章2007版:鼠
日期:2009-06-17 22:01:192010新春纪念徽章
日期:2010-03-01 11:04:582010年世界杯参赛球队:科特迪瓦
日期:2010-06-11 19:25:562010广州亚运会纪念徽章:网球
日期:2010-12-31 16:37:522010广州亚运会纪念徽章:藤球
日期:2011-01-02 15:47:20
14#
发表于 2017-3-21 15:19 | 只看该作者
1.如何用算法学习判定“红楼梦(下)”原作者?您是否有更好的思路。
单看词频表还是不够准确吧,也可以引入专家评价。
写小说嘛,还是要有人物的主线,机器学习只需要提供搜索验证工龄,比如按主要人物的性格和事件发展的脉络来分析,比如十二钗的判词什么的。
我还是觉得线上和线下结合比较好。

使用道具 举报

回复
论坛徽章:
1
秀才
日期:2017-03-28 15:59:38
15#
发表于 2017-3-24 17:11 | 只看该作者
如何用算法学习判定“红楼梦

使用道具 举报

回复
论坛徽章:
1
秀才
日期:2017-03-28 15:59:38
16#
发表于 2017-3-28 13:53 | 只看该作者
好深奥呀

使用道具 举报

回复
论坛徽章:
0
17#
发表于 2017-3-28 16:35 | 只看该作者
一点拙见,不能单纯的分前八十和后四十,毕竟一个作者在创作过程中文风习惯也是会发生改变的,可以多分几段测试看是突变还是渐变的过程

使用道具 举报

回复
论坛徽章:
571
NBA季后赛纪念徽章
日期:2012-06-25 12:19:11洛杉矶快船
日期:2014-06-16 11:45:27NBA常规赛纪念章
日期:2013-04-22 11:49:35NBA季后赛纪念徽章
日期:2011-06-13 11:34:51NBA常规赛纪念章
日期:2011-04-15 13:34:11NBA季后赛纪念徽章
日期:2013-06-21 14:52:05NBA常规赛纪念章
日期:2012-04-27 16:07:05生肖徽章:羊
日期:2014-08-15 14:12:01ITPUB9周年纪念徽章
日期:2016-10-28 17:00:11ITPUB9周年纪念徽章
日期:2016-10-28 17:00:11
18#
发表于 2017-3-29 17:10 | 只看该作者
這個謎

使用道具 举报

回复
论坛徽章:
16
秀才
日期:2016-12-21 16:55:07秀才
日期:2017-08-18 11:06:45秀才
日期:2017-08-18 11:02:47秀才
日期:2017-07-11 14:19:35秀才
日期:2017-04-06 18:09:28秀才
日期:2017-03-28 15:59:38秀才
日期:2017-03-28 15:11:09秀才
日期:2017-03-27 17:42:03秀才
日期:2017-03-20 13:42:20秀才
日期:2017-03-01 13:53:39
19#
发表于 2017-3-29 22:38 | 只看该作者
观摩~

使用道具 举报

回复
论坛徽章:
46
目光如炬
日期:2015-05-25 17:31:392017金鸡报晓
日期:2017-02-08 14:09:13弗兰奇
日期:2017-02-17 10:52:09目光如炬
日期:2017-06-18 22:00:00妮可·罗宾
日期:2018-01-16 16:54:11ITPUB社区OCM联盟徽章
日期:2018-03-07 13:51:55ITPUB18周年纪念章
日期:2018-09-17 10:09:49ITPUB元老
日期:2019-04-09 21:48:17授权会员
日期:2019-04-09 21:50:2519周年集字徽章-19
日期:2020-06-16 21:48:06
20#
发表于 2017-3-30 10:51 | 只看该作者
不懂
不过看过红楼梦好几遍了,感觉后面40回写得比较仓促,按前面80回的细腻写法,整本书估计要写160回。

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表