12
返回列表 发新帖
楼主: hwayw

话题讨论:聊聊大数据的架构与算法那些事儿

[复制链接]
论坛徽章:
12
奥运纪念徽章
日期:2013-05-20 09:57:09问答徽章
日期:2014-03-04 13:57:52技术图书徽章
日期:2014-09-28 09:06:52
11#
发表于 2014-9-27 10:48 | 只看该作者
大数据还是比较火热啊,默默支持!

使用道具 举报

回复
论坛徽章:
57
ITPUB15周年纪念
日期:2016-10-13 13:15:342017金鸡报晓
日期:2017-01-10 15:39:052017金鸡报晓
日期:2017-02-08 14:09:13秀才
日期:2017-02-22 15:14:12秀才
日期:2017-02-22 15:16:26秀才
日期:2017-02-22 15:18:00秀才
日期:2017-05-09 11:37:55秀才
日期:2017-07-11 14:19:35ITPUB18周年纪念章
日期:2018-11-13 15:31:24
12#
发表于 2014-9-27 19:24 | 只看该作者
1. 大数据应用的架构设计原则?
从功能模块可划分为:数据标准(数据标准字典,数据流程规范),数据模型(数据主题域,概念模型,主数据体系,模型选择),数据管理体系(管理规范及流程,质量控制,元数据管理,调度管理,日志监控)
从业务需求,主要要求有:灵活性,简易性,安全性,连续性,成本及时效。
数据架构原则:数据对象统一;数据,应用分离;数据异构;数据读写分离;数据库成本及管理;
2. 大数据常用的算法与数据结构?
   主要有:Bloom filter (HBase),B+、B- Tree(mysql,oracle,mongodb),Hash表+桶(redis)
,数据库索引,倒排索引(Inverted index),外排序,分布式处理(mapreduce)等
3. 大数据应用的未来挑战和趋势?
    各领域数据融合及挖掘,行业数据跨界应用。
        挑战:海量数据整合,智能化分析挖掘。
4. 说说您读完试读样章后的启发?
   本书对图数据从不同使用场景来分析,详细深入介绍了数据分片,图计算的计算范型和编程模型,
   对相关系统设计很有启发,学习中。。。

使用道具 举报

回复
论坛徽章:
0
13#
发表于 2014-9-28 13:26 | 只看该作者
不错啊

使用道具 举报

回复
论坛徽章:
8
红宝石
日期:2014-08-28 15:18:18紫水晶
日期:2014-08-28 15:18:42祖母绿
日期:2014-09-11 13:38:41itpub13周年纪念徽章
日期:2014-10-08 15:13:38马上有车
日期:2014-10-09 16:50:00蓝锆石
日期:2014-11-05 17:13:52itpub13周年纪念徽章
日期:2014-11-17 17:01:01蓝色妖姬
日期:2015-01-05 17:16:44
14#
发表于 2014-9-28 22:21 | 只看该作者

1. 大数据应用的架构设计原则?
     (1)可(异地)部署和就近路由接入,破除单点故障(不能像Hadoop那样  存在单点故障);
           (可分布,可调度的原则)
     (2)数据分片   数据的完整性、一致性原则;
     (3)负载均衡原则和平滑扩容;
     (4)数据分级存储原则:单内存cache存储,内存cache+异步更新,内存cache+同步更新(cache的多级设计);
     (5)轻重分离原则;保持接入和业务处理的分离,接入尽量轻量化,使得系统具有很好的吞吐量,处理尽量异步化,使得可以平滑扩展
     (6)有损服务原则;用低成本提供海量的服务原则
     (7)能异步的尽量异步原则(提升数据处理速度);
      诸如扩展性、灵活性......   概不赘述

2. 大数据常用的算法与数据结构?
      常用的算法:著名的Google   网页排名算法:PageRank
                        著名的聚类算法:K-Means
                        以上两个算法,经常出现在论文  的实验部分或 example
                        机器学习   数据挖掘等等.........
      数据结构:这个应该要看是针对什么应用而言,比如大数据的存储数据库有:key-value(Hbase、Cassandra) 、  列式存储 (Parquet)、Redis(hase  set)、mongodb(Json ... )   
                     分布式索引中的著名数据结构:倒排索引
                     .............
3. 大数据应用的未来挑战和趋势?
      大数据存储技术、并行计算、吞吐量
      大数据的实时查询(ad-hoc)、分析(OLAP),数据挖掘 等挑战
      趋势:智能系列,  智能推荐 .........

4. 说说您读完试读样章后的启发?
     样章主要介绍了图计算的关键技术。如  巨型图存储:点分割的方式 、邻接表存储; 图计算领域普遍遵循的计算模式:BSP模式(实现者   Google Pregel);  此外,相比Pregel的消息范式,CMU的PowerGraph则采用了GAS模型,实现了异步操作,而非pregel的整体同步。感觉不错哦,之前看图计算的相关知识,都是看论文,并在网上搜索整理的,大致就是样章中讲解的内容,赞一个.......

使用道具 举报

回复
论坛徽章:
2
2015年新春福章
日期:2015-03-04 14:51:122015年新春福章
日期:2015-03-06 11:57:31
15#
发表于 2014-9-29 18:39 | 只看该作者
有点意思

使用道具 举报

回复
论坛徽章:
0
16#
发表于 2014-10-4 12:23 | 只看该作者
hadoop貌似也算是应用了

使用道具 举报

回复
论坛徽章:
2
2014年新春福章
日期:2014-02-18 16:43:09马上有钱
日期:2014-02-18 16:43:09
17#
发表于 2014-10-9 16:53 | 只看该作者
应用架构和算法这块正在研究,没有太系统的见解,这里就不献丑了吧,我想谈谈大数据应用的挑战和趋势

先说挑战,其实大数据应用最大的挑战并不是技术和数据本身,而在与人们对于数据的认识和态度。这方面很多互联网公司做的比较好,它们拥有丰富的数据同时也有强烈的盈利需求,可以挖空心思的在各种数据上做文章;而对于很多传统行业,尤其是政府,首先它们还是相当重视数据的,甚至比互联网公司都要重视,但出于行政管理,组织利益和安全等的考虑数据往往会形成孤岛很难做到综合利用。
另外一方面的挑战是构建成功的大数据应用需要对业务逻辑和数据处理技术都有比较深入的理解,而且很难拆解开,因为业务的需求会直接影响到底层架构的设计以及算法和工具的选择,这一点和传统的交易型系统有很大区别,所以现在一些行业中的软件+数据库+硬件的分工模式不太适合大数据应用开发,市面上能够对各种因素通盘考虑做整体架构的公司并不多。
趋势的话我的理解,现在技术层面的工具,技术是一个百家齐放的局面,其原因一方面是开源项目的运营模式越来越成熟,另一方面是大数据的分析处理是多样化的,相信未来很长一段时间都会维持这个局面,传统的软件开发上已经逐渐向服务提供商转变,产品本身可能变得越来越不重要,贴合用户需求的定制化架构和解决方案可能更加受到欢迎,同时云计算的不断发展也将使得未来的架构设计更加轻松,部署和迁移更加便捷。

以上个人拙见,完全是为了想蹭楼主一本书,刚刚读了样章,可能本人技术水平有限吧,有些内容还是要消化一下的,对于我这个技术小白来说,如果能举个实际栗子说明图数据库相对传统关系型数据库的优势的话,是极好的。不管怎样,谢谢楼主的样章,谢谢作者这样一本好书,当然如果能送一本的话就更加感谢了。

使用道具 举报

回复
论坛徽章:
5
ITPUB十周年纪念徽章
日期:2011-11-01 16:24:04懒羊羊
日期:2015-03-04 14:52:112015年新春福章
日期:2015-03-06 11:58:18秀才
日期:2015-10-19 15:49:55秀才
日期:2015-10-19 15:50:39
18#
发表于 2014-10-11 10:28 | 只看该作者
1. 大数据应用的架构设计原则?
        数据规模不再是问题
        透明度
        抽象,事关高效和简洁
        安全:审计与合规
        数据便携性

2. 大数据常用的算法与数据结构?
      哈希树、布隆过滤器、LSM树 、map/reduce、倒排索引等

3. 大数据应用的未来挑战和趋势?
      大数据的实时计算、海量大数据的数据挖掘、大数据机器学习等

4. 说说您读完试读样章后的启发?
     样章主要介绍了图计算的相关算法与技术。对图像处理这块非常有帮助,实际上业界现在对大数据图像处理识别这块也是热点,
         如何从大量图片提取有用的信息是众多互联网公司研究的方向。

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表