查看: 30821|回复: 39

【话题讨论】大数据大变革:如何解决海量数据存储问题?(已公布获奖名单)

[复制链接]
求职 : 数据库管理员
招聘 : Java研发
认证徽章
论坛徽章:
6348
ITPUB9周年纪念徽章
日期:2014-05-02 10:36:402011新春纪念徽章
日期:2014-12-29 12:11:142010广州亚运会纪念徽章:卡巴迪
日期:2014-08-06 08:44:252012新春纪念徽章
日期:2014-12-29 12:11:142013年新春福章
日期:2014-12-29 12:11:14马上有车
日期:2014-12-29 12:11:14马上有房
日期:2014-12-29 12:11:14马上有钱
日期:2014-12-29 12:11:14马上有对象
日期:2014-12-29 12:11:14马上加薪
日期:2014-12-29 12:11:14
发表于 2014-5-20 16:19 | 显示全部楼层
正在搞,头疼..
先支持一下,有时间补充

使用道具 举报

回复
论坛徽章:
1
2014年世界杯参赛球队:克罗地亚
日期:2014-06-12 16:53:56
发表于 2014-5-21 10:13 | 显示全部楼层
抛砖一枚。不了解大数据技术,只谈以前的实践。
2000年开始做数据加工系统,该系统主要实现把纸质文件,扫描、识别、校对,最后输出可修改的电子格式文件。当时的处理方式是数据库存储文件路径,图像文件直接存储在磁盘里。
最大的瓶颈是磁盘读写和网络传输,后来采用文件存储集群方式处理,另自己处理网络传输平衡问题。
听课......

使用道具 举报

回复
认证徽章
论坛徽章:
17
ITPUB新首页上线纪念徽章
日期:2007-10-20 08:38:442015年新春福章
日期:2015-03-06 11:57:31暖羊羊
日期:2015-03-04 14:50:37马上有钱
日期:2014-05-19 11:18:35马上有车
日期:2014-02-18 16:41:112014年新春福章
日期:2014-02-18 16:41:112013年新春福章
日期:2013-02-25 14:51:24奥运会纪念徽章:现代五项
日期:2012-10-16 23:29:11ITPUB 11周年纪念徽章
日期:2012-10-09 18:06:202012新春纪念徽章
日期:2012-01-04 11:50:44
发表于 2014-5-21 13:30 | 显示全部楼层
大数据的产生准确说应该是一种进步,这样会倒过来推动技术理论的创新,如果你从传统技术来解决这个问题就只能从小处着手,这也是我们现在的数据落地,无论是淘宝,还是企鹅,等国内外企业都还处于初级基础阶段,架构也是五花八门.很难说谁好谁坏.

使用道具 举报

回复
论坛徽章:
1
2014年世界杯参赛球队:克罗地亚
日期:2014-06-12 16:53:56
发表于 2014-5-22 17:22 | 显示全部楼层
一直想研究大数据的东西,望跟进。以前稍微接触过,就是采取 数据库存储文件路径,而真正的文件存放在其他的文件服务器上,例如 图片服务器上面。另外页面加载机制也采取延时加载的技术,探测到用户鼠标下拖时,进一步加载页面其余的数据信息。

使用道具 举报

回复
论坛徽章:
27
2014年新春福章
日期:2014-02-18 16:50:09秀才
日期:2015-06-25 15:39:28秀才
日期:2015-06-29 15:26:52秀才
日期:2015-07-03 17:00:53秀才
日期:2015-07-14 09:44:30金牛座
日期:2015-07-21 14:01:36秀才
日期:2015-09-14 10:08:30秀才
日期:2016-02-18 09:24:18秀才
日期:2016-02-18 10:08:02举人
日期:2016-02-24 17:33:17
发表于 2014-5-22 21:12
说下我个人想法吧,如果有错,欢迎指出
1.大数据的处理流程包括了哪些环节?每个环节有哪些主要工具?
     1.1数据的采集,ftp或者现有系统;1.2数据存储,数据库或者格式化的方文件;1.3数据分类;1.4数据分析
2.大数据的数据库相比于传统数据库有何变化?出现了哪些新的大数据的数据管理方式?
    首先从数据量成倍增长;复杂问题分解成多个小问题,最后汇总,也就是map-reduce;分布式处理,全球的计算机网络形成一个巨型的大脑
3.谈到海量数据存储管理技术,比较典型的有Google的Big Table和Hadoop的HBase,它们有哪些相似点和不同点。
    Hadoop的HBase是Google的Big 的开源实现,每个人都可以下载来使用,也可以根据自己需要进行修改和完善
4.作为一个社交网站,Facebook拥有世界上最大的照片库,作为一个电商大佬,淘宝也同样拥有成千上万的图片,它们用到哪些图片存储系统?请谈谈您对它们的理解。
  这个不清楚,估计应该是文件数据库的形式存储的,如果用传统的关系型数据库,首先从查找速度来说,就做不到。

招聘 : Oracle 课程老师
认证徽章
论坛徽章:
48
19周年集字徽章-周
日期:2019-09-03 17:47:002011数据库大会纪念章
日期:2015-04-23 10:33:192010数据库技术大会纪念徽章
日期:2015-04-23 10:33:192014年世界杯参赛球队: 俄罗斯
日期:2014-07-17 17:21:42ITPUB伯乐
日期:2014-07-17 14:45:422014年世界杯参赛球队: 希腊
日期:2014-06-20 16:01:122014年世界杯参赛球队:克罗地亚
日期:2014-06-12 16:53:56马上加薪
日期:2014-04-25 14:18:13目光如炬
日期:2014-04-21 06:00:12马上有房
日期:2014-03-31 15:10:37
发表于 2014-5-23 10:38 | 显示全部楼层
1.大数据的处理流程包括了哪些环节?每个环节有哪些主要工具?
采集层:采集机、报文、离线数据、在线录入等
预处理层:Hadoop map reduce、java程序、SAS可以方便处理不规则文本文件、实时型可以用storm
整合:IBM DataStage、Oracle Data Integrator
分析&展现:R、SAS、SPSS
淘宝它所采用的是自己研发的Obase,比较适合存储电商图片等信息。

使用道具 举报

回复
求职 : 数据库管理员
认证徽章
论坛徽章:
21
ITPUB十周年纪念徽章
日期:2013-06-18 22:48:19马上有房
日期:2014-02-18 16:42:022014年新春福章
日期:2014-02-18 16:42:02优秀写手
日期:2013-12-18 09:29:12林肯
日期:2013-10-31 18:06:48奥迪
日期:2013-09-12 15:57:04ITPUB社区12周年站庆徽章
日期:2013-08-20 11:30:11蛋疼蛋
日期:2013-06-17 14:35:03ITPUB社区千里马徽章
日期:2013-06-09 10:15:342013年新春福章
日期:2013-05-27 10:23:00
发表于 2014-5-26 13:15 | 显示全部楼层
个人觉得海量数据分为2中情况进行存储的规划比较好:
      (1):海量数据如果用于分析挖掘,必须的以空间换时间,那么存储和效率,两者毫无疑问的选择效率,存储的话,用列式数据库能节约大量空间,对hbase不熟悉,我用的是商业产品sybase iq,虽然稳定性差,但是查询分析的效率高,空间占用相对行式数据库那是大量的减少。

       (2):海量数据如果是业务数据的历史数据,而不用于数据的挖掘分析,那么建议用对数据和表空间进行压缩存储,然后做成只读,备份后放入非高速存储以备少量的业务查询。

使用道具 举报

回复
认证徽章
论坛徽章:
127
茶鸡蛋
日期:2012-01-16 14:24:41鲜花蛋
日期:2012-06-06 14:48:18双黄蛋
日期:2013-01-07 21:07:482013年新春福章
日期:2013-02-25 14:51:24优秀写手
日期:2013-12-18 09:29:082014年新春福章
日期:2014-02-18 16:44:08马上有对象
日期:2014-02-18 16:44:08马上加薪
日期:2014-03-18 09:57:11马上有车
日期:2014-03-20 16:13:24马上有房
日期:2014-03-20 16:14:11
发表于 2014-5-27 11:02
Facebook海量图像存储系统使用的HayStack,这个存储系统使用<图片逻辑卷号,图片id>来标示图像,而不是<起始地址,偏移量>。

认证徽章
论坛徽章:
3
2014年世界杯参赛球队:克罗地亚
日期:2014-06-12 16:53:56海蓝宝石
日期:2014-08-06 14:09:32红宝石
日期:2014-08-28 15:18:18
发表于 2014-6-11 22:26
1.大数据的处理流程包括了哪些环节?每个环节有哪些主要工具?
数据采集: 半结构日志文件可使用flume; 结构化数据可以使用传统的E TL工具如,datastage、kettle 等等
数据存储:hadoop hdfs存储海量数据;也可用传统的oracle、sysbase iq等数据仓库解决方案
数据统计: 使用hive、impala对hadoop进行统计分析;
数据挖掘:可使用mahout进行数据挖掘

2.大数据的数据库相比于传统数据库有何变化?出现了哪些新的大数据的数据管理方式?
量大、结构多样、速度要求高等特点; 出现了以hadoop为代表的分布式存储和nosql等数据存储管理方案

3.谈到海量数据存储管理技术,比较典型的有Google的Big Table和Hadoop的HBase,它们有哪些相似点和不同点。
hbase列式存储,底层还是hadfs; google 的big table没接触过,但大致原理应该差不多

4.作为一个社交网站,Facebook拥有世界上最大的照片库,作为一个电商大佬,淘宝也同样拥有成千上万的图片,它们用到哪些图片存储系统?请谈谈您对它们的理解。
没研究过!

认证徽章
论坛徽章:
111
ITPUB9周年纪念徽章
日期:2010-10-08 09:34:03马上有房
日期:2014-02-18 16:42:02马上有车
日期:2014-03-20 10:09:22马上有钱
日期:2014-03-20 15:53:11马上有车
日期:2014-03-20 16:13:24马上有房
日期:2014-03-20 16:14:11马上有钱
日期:2014-03-20 16:14:11马上有对象
日期:2014-03-20 16:14:11马上加薪
日期:2014-03-20 16:14:11技术图书徽章
日期:2014-03-27 09:30:56
发表于 2014-5-20 17:15 | 显示全部楼层
路过,支持!!!

使用道具 举报

回复
认证徽章
论坛徽章:
127
茶鸡蛋
日期:2012-01-16 14:24:41鲜花蛋
日期:2012-06-06 14:48:18双黄蛋
日期:2013-01-07 21:07:482013年新春福章
日期:2013-02-25 14:51:24优秀写手
日期:2013-12-18 09:29:082014年新春福章
日期:2014-02-18 16:44:08马上有对象
日期:2014-02-18 16:44:08马上加薪
日期:2014-03-18 09:57:11马上有车
日期:2014-03-20 16:13:24马上有房
日期:2014-03-20 16:14:11
发表于 2014-5-20 17:23 | 显示全部楼层
2009532140 发表于 2014-5-20 16:19
正在搞,头疼..
先支持一下,有时间补充

确实操脑筋!

使用道具 举报

回复
求职 : 数据库开发
认证徽章
论坛徽章:
41
2017金鸡报晓
日期:2017-02-08 14:09:13秀才
日期:2016-01-13 12:14:26秀才
日期:2016-01-12 11:23:27金牛座
日期:2016-01-03 20:58:56秀才
日期:2015-12-21 09:53:46秀才
日期:2015-12-21 09:48:11秀才
日期:2015-12-18 09:28:57秀才
日期:2015-12-14 15:02:13秀才
日期:2015-11-23 09:48:22秀才
日期:2016-01-21 13:37:04
发表于 2014-5-20 21:16 | 显示全部楼层
很有意思。。。

使用道具 举报

回复
论坛徽章:
737
季节之章:春
日期:2015-07-31 17:16:29ITPUB季度 技术新星
日期:2014-07-17 14:37:00季节之章:秋
日期:2015-07-31 17:16:14季节之章:夏
日期:2015-07-31 17:16:29股神
日期:2014-10-15 09:23:31衰神
日期:2014-10-20 22:47:12季节之章:冬
日期:2015-07-31 17:16:14红钻
日期:2014-12-16 17:51:41洛杉矶湖人
日期:2016-09-23 08:18:15布鲁克林篮网
日期:2016-09-23 08:17:18
发表于 2014-5-20 22:08 | 显示全部楼层
支持。。。。

使用道具 举报

回复
论坛徽章:
0
发表于 2014-5-21 00:13 | 显示全部楼层
支持好话题。

使用道具 举报

回复
论坛徽章:
3
优秀写手
日期:2013-12-18 09:29:14问答徽章
日期:2014-03-28 15:34:40青年奥林匹克运动会-艺术体操
日期:2014-09-04 14:29:32
发表于 2014-5-21 09:12 | 显示全部楼层
关注,支持此话题

使用道具 举报

回复
招聘 : 数据库管理员
论坛徽章:
1
ITPUB 11周年纪念徽章
日期:2012-10-09 18:14:48
发表于 2014-5-21 09:39 | 显示全部楼层
求解,期待前辈解答

使用道具 举报

回复
认证徽章
论坛徽章:
3
慢羊羊
日期:2015-03-04 14:51:352015年新春福章
日期:2015-03-06 11:57:31秀才
日期:2017-08-18 11:02:47
发表于 2014-5-21 11:01 | 显示全部楼层
希望学习,支持一个~

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 
京ICP备09055130号-4  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表