楼主: Napoleon——

你同意「数据比算法重要」这个说法吗?

[复制链接]
论坛徽章:
0
11#
发表于 2011-8-20 18:47 | 只看该作者
在数据挖掘领域当然是数据更重要。在解决大部分工程性问题的时候,数据结构往往比算法分析更实用。因此似乎很容易得出数据比算法重要的结论,但算法更多体现的是一种思想,是一种思考并解决问题的方法,数据结构的选择更是这种思想的体现。


使用道具 举报

回复
论坛徽章:
0
12#
发表于 2011-9-2 11:48 | 只看该作者
一个是雪中送炭,一个是锦上添花。没有诸葛亮,只有一群臭皮匠难成大器;有了诸葛亮,却不能充分发挥其才能,也是白瞎


使用道具 举报

回复
论坛徽章:
0
13#
发表于 2011-9-2 12:44 | 只看该作者
算法和数据是一件事的多个面,您举的例子里,我看到的主要评价标准就是“数据挖掘结果的有效性”这一点。而从其中拆分出的“算法 和 数据 孰轻孰重”的问题似乎是要在一元标准上建立两个主次标准,我认为这样做只会让这件事更糊涂。  

如果想知道现在的时间,最好只看一个表。对于做事来说,就是只选择一个参照系来做评判,即使所选择的参照系(“表”)不太准,你也能得到一个比较清晰的结论。如果再拆分出更多的“表”来评价这件事,不仅把问题复杂化了,也增加了很多无效的思考工作。在很多领域其实都会出现这种现象,比如有的老板认为绩效需要考勤作为基础,为了提高绩效而抓员工的考勤,从而制定出考勤+绩效的双重考核标准,这样看起来很科学,实际上更多只是徒增了管理成本,我认为这是费力不讨好的。


使用道具 举报

回复
论坛徽章:
0
14#
发表于 2011-9-6 13:04 | 只看该作者
在一堆繁杂的数据面前,好的算法尤为重要,没有算法,你压根不知道这一堆是啥东西!


使用道具 举报

回复
论坛徽章:
0
15#
发表于 2011-9-6 16:10 | 只看该作者
让人啼笑皆非的描述,因为算法,其实是处理数据的(广义的)。
存在两个过程,数据的表述和数据的处理(流动),这从来就不是谁重要谁不重要的问题,而是缺了谁,就没法运行的问题。


使用道具 举报

回复
论坛徽章:
0
16#
发表于 2011-9-6 17:07 | 只看该作者
程序 = 数据结构 + 算法,数据结构用来干啥的,装数据的呀。  

数据能干啥?数据是信息的源泉,没有足够的数据,就没有信息,信息技术没有信息啥都没有。  

算法能干啥?把数据中信息提取出来,不经过提取,数据还是数据,变不成有用的信息。  

这俩不是并列的关系,而是一体的,如何能说谁重要呢?脑子重要还是心脏重要,你给我说说。  

此外,数据的好坏如何衡量?不是越多越好,当然数据越多往往所蕴含的信息越大,这个容易看得出来;算法的好坏如何衡量?不是越复杂约好,能从海量的垃圾中找到有用的信息的算法就是好的算法,虽然不这么复杂,不是所有的人都能看到这点。  

我最想说的是什么?如果不是事不关己的旁观者,数据往往是自己能拿到最多的数据,然后根据自己的这些数据去找最合适的算法。


使用道具 举报

回复
论坛徽章:
0
17#
发表于 2011-12-20 16:25 | 只看该作者
这是一个balance的问题,泛泛比较无从谈起。当数据多到压倒算法的优越性时,可以说数据作用较大,反之亦然。  
在学术界,评价同一算法时,要比较不同规模训练数据集上的效果,而在评价不同算法时,要比较在同一训练数据集上的效果,这样才有可比性。  
在实际中,由于算法的差距容易缩小,但数据量的差距难以弥补。因此数据量明显占优的那方,最终效果会好些。


使用道具 举报

回复
论坛徽章:
0
18#
发表于 2011-12-20 18:33 | 只看该作者
这要看怎么定义“算法”,其实多数时候,所指的“算法”是指“策略”。那么这时候,加入一个新的输入特征,其实就是加入了新的“策略”,而不是数据本身的改进。当然,也可以认为增加了新的“数据”。如果认为纯纯的、与任何数据无关的通用“算法”本身,例如随机森林这个方法本身,那么我也认同,在工程上,数据不是重要,而是我们玩的就是数据,算法没什么可搞的,10年左右会有一批牛人来一次提升,绝大多数工程师都搞不出什么来的。


使用道具 举报

回复
论坛徽章:
0
19#
发表于 2013-3-29 15:37 | 只看该作者
"sometimes it's not who has the best algorithm that wins; it's who has the most data."


使用道具 举报

回复
论坛徽章:
0
20#
发表于 2013-11-5 12:44 | 只看该作者
完全同意。


使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表