本帖最后由 pastime_Wang 于 2017-4-24 13:43 编辑
1.如何用算法学习判定“红楼梦(下)”原作者?您是否有更好的思路。
我觉得这是可行的, 有点类似于 谷歌的德国工程师托马斯·斯坦纳开发 的Wikipedia Live Monitor,这个程序实时监控维基百科上287种语言的词条,寻找短时间内狂热编辑的条目,
如果很多人在用不同的语言编写同一个事件的词条,则说明有重大事件正在发生。
但关键是词条的选择要准确, 可以生成一个词库,比如选择有代表性的桥段, 按韵母或词性分类+押韵方式。以此比较前后50回的拟合程度.
---------------------------------------------------------------------------
2.如何做好机器学习、数据挖掘工作?需要设计哪方面的语言和算法学习?(可引荐相关专业图书,以及具体算法的学习) 我觉得应该分2个方向:算法和技术
算法: 1. 对主流的应用模型有较好的理解和运用 2. 数理统计,数据挖掘或机器学习常用模型:如 SVM,随机森林,GBM,贝叶斯,决策树,回归等
技术: 1. 熟悉数据库以及SQL语句,掌握常用的ETL技能 2. 熟悉主流的数据挖掘工具, matlab, SPSS, SAS, 了解其中模型的输入/输出。
推荐的入门书籍: 《数据挖掘导论》和《数据之美》
--------------------------------------------------------------------------- 3.机器学习应该准备哪些数学预备知识?
数学方面:线性代数、微积分、矩阵论、概率和统计等等。
其实个人觉得这些算法、模型不需要完全理解的很深,只需要知道什么场景选用什么算法。模型本身没有对错之分,只有好坏,同时随着条件的变化,需要不断的调整。 另外应熟悉如何整理源数据,并运用算法工具进行计算(参数设置)并对最终的结果进行分析。
|