查看: 41048|回复: 28

【IT名人堂】站在互联网+风口上:百度地图背后的大数据能飞起来吗?

[复制链接]
认证徽章
论坛徽章:
127
茶鸡蛋
日期:2012-01-16 14:24:41鲜花蛋
日期:2012-06-06 14:48:18双黄蛋
日期:2013-01-07 21:07:482013年新春福章
日期:2013-02-25 14:51:24优秀写手
日期:2013-12-18 09:29:082014年新春福章
日期:2014-02-18 16:44:08马上有对象
日期:2014-02-18 16:44:08马上加薪
日期:2014-03-18 09:57:11马上有车
日期:2014-03-20 16:13:24马上有房
日期:2014-03-20 16:14:11
发表于 2015-3-30 15:20 | 显示全部楼层 |阅读模式

在互联网+热潮下,谈的最火的话题之一是大数据,而在大数据领域做得风生水起的当属百度和阿里了。从世界杯预测、高考预测、到奥斯卡奖项预测,百度大数据吊足了大家的胃口,百度地图每天响应来自手机用户的上百亿次定位请求,数亿的地图位置检索请求,可以收集到移动互联网用户海量得出行数据,百度迁徙更是在春节期间一炮走红,百度热力图、百度天眼等产品也相继出世。天地之间,无论何时何地,我们的世界都漂浮着海量的时空大数据,站在互联网+的风口上,这些时空大数据能飞起来吗?它们究竟有哪些用武之地呢?本期名人堂皮皮邀请到了百度研究院大数据部实验室数据科学家吴海山坐镇,为我们揭晓百度大数据的神秘面纱。


皮皮(Q1):您好!很高兴有机会采访到您,我了解到您此前在IBM研究院从事商业数据的研究与优化,现在负责百度时空大数据的挖掘研究,那很多人可能对时空大数据感到困惑,究竟什么样的数据是时空大数据呢?您觉得IBM的大数据和百度的大数据来源有啥区别?

吴海山(A1):所谓的时空大数据(spatial-temporal big data),指的是随着时间变化的空间数据,最为典型的就是人出行时产生的历史轨迹,根据轨迹我们就可以知道你什么时候(时)出现在什么地方(空)。近年来,随着移动互联网的普及,有定位传感器的智能手机覆盖面也越来越广,每天会不断产生海量的人为位置数据,也就是时空大数据。


大数据可是说是IBM炒红的一个概念。IBM主要以提供商业解决方案为主,主要的客户来自交通、电力和银行等行业。从某种意义上来说,IBM本身不产出数据,主要提供对数据的存储硬件设备和相应的数据分析软件平台。和IBM不同的是,百度是一个互联网公司。放眼望去,全国网民每天可产生近百亿的搜索,像百度地图、百度搜索等都产生了海量的数据。



皮皮(Q2):今年春节前夕,业界首个以“人群迁移”为主题的大数据可视化项目---百度迁徙精彩亮相了,有人把它比喻成上帝的视角来看待大数据的魅力,大家可以实时查看全国人口的流动情况、查询实时航班信息、还能嗅探到全国火车站和飞机场热度等,这些以烟花般美丽炫酷的信息图背后到底用到了百度哪些技术呢?

吴海山(A2):百度迁徙是一个非常棒的项目,尤其是今年的百度迁徙还加入了百度天眼的航班信息、火车站信息等,效果非常炫。我本人并没有参与到这个项目,所以无法对具体的技术细节做讲解。不过总体来讲包括这样几个部分:其一,后端实时流数据的传输和计算。每天由百度地图产生的各种数据量非常大,百度迁徙需要尽量缩短数据的清洗、处理等带来的时间延迟,百度拥有自己强大的流计算平台;其二,前端的数据可视化技术。这个用到了百度自己开发的Echarts,可以高效的呈现可视化时空数据。


3.jpg 2.jpg

皮皮(Q3):百度地图覆盖500万公里路网和全国95%的高速公路,支持全国337个地级城市高清卫星图和热力图服务,百度地图每天响应来自手机用户的上百亿次定位请求,数亿的地图位置检索请求,它是如何做到数据的实时定位的呢?我们知道百度推出的很多O2O服务都以百度地图作为第一流量入口,比如天气应用、同城类应用等第三方应用能不能和我们分享下百度地图发力O2O的案例?

吴海山(A3):百度拥有自己研发的定位SDK,可以通过多种方式,如通信基站、GPS卫星 、WIFI等方式在不同情景下实现精确的实时定位,当然不同的定位方式,精度有所不同。


作为百度研究院的大数据实验室(big data lab, BDL),我们主要结合公司的长期战略,进行相对前沿的研究,孵化相关有潜力的产品demo。比如我们最近有一个关于智能化、个性化的地图搜索技术,当大家在百度地图上搜索“某某饭店”时,我们会根据用户的历史位置检索偏好等信息,准确预测用户到访该饭店的时间,然后饭店可以提前为用户排号、检查停车位等服务,并根据到访的用户量优化资源配置,从而实现打通线上、线下服务。我们还推出了算法,可以预测用户下一个要搜索位置的类型,超前一步,将用户最想找的位置放在最前面,通过预测性位置搜索(predictive location search)提高用户的体验。

1.jpg


皮皮(Q4):百度在大数据上动作频频,比如世界杯预测、高考预测、奥斯卡预测吊足了大家的胃口,春节期间百度迁徙更是一炮走红,百度热力图、百度天眼等产品也相继出世,而支撑这背后的团队无疑归功于像您一样,一群百度研究院大数据实验室的工程师们,能否和我们介绍下百度研究院大数据实验室?您们在研发诸如上述的百度大数据产品时有哪些创意和趣闻轶事呢?

吴海山(A4):百度研究院(Baidu Research)有三个实验室,除了我们的大数据实验室(BDL), 还有深度学习实验室(IDL)和在美国硅谷人工智能实验室(AI Lab)。研究院的院长是Andrew Ng博士,我们实验室的主任是著名的机器学习科学家张潼教授。除了时空数据的研究,我们实验室的研究方向还有智能预测引擎(如百度高考预测、世界杯预测等)、大规模机器学习算法研究、智能医疗等方向,实验室的主要成员都是来自国内外的知名研究院所。作为公司的研究部门,我们本身并不负责一个完成产品的开发,更侧重根据研究成果开发prototype,然后会有相关的产品部分负责产品化。



皮皮(Q5):我国人口众多,重大文体活动、节假日集会等活动中,容易出现因人群过度拥挤而引发的危险乃至事故。那么百度大数据是否可以提前预测,做到事前预警呢?请结合上海踩踏事件谈谈您的想法。

吴海山(A5):说起人群拥挤的研究,还要从我在普林斯顿的博士后研究说起。我一直对自然界的群体行为十分感兴趣,当时主要研究的就是鱼的群体行为,就是想探索为什么鱼可以成群的游泳、背后有哪些玄机?有个非常不错的研究成果,最近刚刚发表在美国科学院院刊(PNAS)上,我们通过计算机视觉、机器学习的方法探索了信息在鱼群中的传播机理。对于人群来讲,行为其实更加复杂。尽管国内外也有不少学者对人群的异常行为做了很少研究,但是要说预测,还是非常非常困难的事情。我个人觉得,我们最多能做的是可以提前发现异常,进行预警还是相对可行的。


上海外滩发生踩踏悲剧后,1月2日,我们实验室就在用百度的定位数据进行了可视化分析,然后负责开展与百度大数据的外滩踩踏事件分析。通过和其他几位同事一起尝试融合百度的多个数据源,试图还原当时的场景,看是否可以在事后寻找一些可以对将来有帮助的线索。根据我个人的研究经验,发生踩踏事情基本是难以预测的,国内外都发生过多次这样的悲剧,比如当时很多媒体报道认为,由于人多导致了悲剧,我们的分析结果表明,南京东路附近同样达到过类似的人群密度,但却没有发生悲剧。我们当时的研究也主要集中在预警而不是预测上。根据我们的研究,我们发现通过融合多个数据源,是有可能进行预警的:我们发现用户在去目的地之前,会提前使用百度地图进行搜索,进行路径规划后,到达现场,这个时间的提前量在半个小时到两个小时不等,我们还用了鸟巢、首体等地点大型活动的数据进行了验证,也发现了同样的现象。而且地图位置的搜索量和人口定位量也高度相关,这意味着我们可以提前预测人口流量。如果人口流量超过一定阈值,相关部门则可以进行提前布置警力等来预防。此外,我们还研究预测算法,来更准确的预测人流量。目前我们正在开发该产品,希望将来百度大数据能为公共安全贡献一份力量。


皮皮(Q6):被誉为互联网下一个入口的是LBS,百度、阿里、腾讯三大互联网巨头纷纷在地理位置服务领域加大了布局,互联网地图的“入口”之争将会愈演愈烈,高德地图对百度地图步步紧逼,百度LBS开放平台横跨了Web端、移动端、服务端,能否和我们谈谈百度LBS有哪些优势?

吴海山(A6):时空大数据挖掘作为我们实验室的一个重要研究方向,产出的研究成果,将会为百度LBS提供强大的“百度时空大脑”:比如我们重点研究的个性化和预测性的位置搜索(personalized and predictive location search)将可以服务百度地图搜索;我们对基于百度大数据的公共安全领域的研究,将可以帮助百度LBS在将来拓展该领域的市场;我们还有一些更加前沿的项目研究,这些研究结果不但可以更好的理解百度用户的行为,实现更加智能的人与服务的链接,还可以让公众看到,这些研究在将来受益所有的中国人。通过数据洞察当今的中国,是我们的使命。




    互动时间:2015年3月30日-4月15日

互动奖励:本期名人堂百度专家坐镇,为大家答疑解惑,欢迎各位踊跃提问,活动结束后我们将评选最优会员赠送2015年中国数据库技术大会门票1张。更多嘉宾信息,请查看名人堂栏目:http://www.itpub.net/star/


作为国内数据库与大数据领域最大规模的技术盛宴,2015第六届中国数据库技术大会(DTCC)即将于2015年4月16日-18日在北京新云南皇冠假日酒店震撼登场。大会以“大数据技术交流和价值发现”为主题,云集了国内外顶尖专家,大会特别开设了《大数据生态系统》专场15,届时来自百度研究院大数据实验室(Big data lab) 数据科学家吴海山发表主题为《百度时空大脑 --百度时空大数据背后的智能分析引擎》的精彩演讲,欢迎大家报名:http://dtcc.it168.com/



主题简介:随着移动互联网的普及,移动设备已经能随时随地感知人的位置和需求。百度地图每天响应来自手机用户的上百亿次定位请求,数亿的地图位置检索请求。百度时空大脑是挖掘这些海量的时空数据的智能引擎,我们将会讲解它在如下领域的应用:它从海量的定位数据中,挖掘人群移动的规律,指导公共安全(如拥挤预警)、灾后评估(地震后人群移动变化)、城市规划(城市群分析),实现更加智慧的城市;它能挖掘出用户的出行规律,寻找出用户的偏好,预测出用户将来的场景,从而实现更加精准个性化的服务。



论坛徽章:
737
季节之章:春
日期:2015-07-31 17:16:29ITPUB季度 技术新星
日期:2014-07-17 14:37:00季节之章:秋
日期:2015-07-31 17:16:14季节之章:夏
日期:2015-07-31 17:16:29股神
日期:2014-10-15 09:23:31衰神
日期:2014-10-20 22:47:12季节之章:冬
日期:2015-07-31 17:16:14红钻
日期:2014-12-16 17:51:41洛杉矶湖人
日期:2016-09-23 08:18:15布鲁克林篮网
日期:2016-09-23 08:17:18
发表于 2015-3-30 16:20 | 显示全部楼层
2009532140 发表于 2015-3-30 16:03
我来打击他一下:
http://www.itpub.net/thread-1915353-1-1.html

所有帖子,你总是第一楼,大神,你太牛叉啦

使用道具 举报

回复
认证徽章
论坛徽章:
249
Jeep
日期:2013-09-04 19:17:57Jeep
日期:2013-10-08 09:46:02Jeep
日期:2013-10-08 16:38:27Jeep
日期:2013-11-22 14:53:46Jeep
日期:2013-11-08 23:59:45Jeep
日期:2013-11-22 17:15:17Jeep
日期:2013-11-22 17:15:17Jeep
日期:2013-11-17 09:59:04季节之章:夏
日期:2015-01-28 14:58:51季节之章:春
日期:2014-12-25 16:20:50
发表于 2015-3-30 16:21 | 显示全部楼层
2009532140 发表于 2015-3-30 16:03
我来打击他一下:
http://www.itpub.net/thread-1915353-1-1.html

你是来捣乱的吗?

使用道具 举报

回复
认证徽章
论坛徽章:
277
马上加薪
日期:2014-02-19 11:55:14马上有对象
日期:2014-02-19 11:55:14马上有钱
日期:2014-02-19 11:55:14马上有房
日期:2014-02-19 11:55:14马上有车
日期:2014-02-19 11:55:14马上有车
日期:2014-02-18 16:41:112014年新春福章
日期:2014-02-18 16:41:11版主9段
日期:2012-11-25 02:21:03ITPUB年度最佳版主
日期:2014-02-19 10:05:27现任管理团队成员
日期:2011-05-07 01:45:08
发表于 2015-3-30 16:40 | 显示全部楼层
本帖最后由 jieforest 于 2015-3-30 16:40 编辑

很牛的采访,很牛的专家,很牛的大数据

使用道具 举报

回复
认证徽章
论坛徽章:
111
ITPUB9周年纪念徽章
日期:2010-10-08 09:34:03马上有房
日期:2014-02-18 16:42:02马上有车
日期:2014-03-20 10:09:22马上有钱
日期:2014-03-20 15:53:11马上有车
日期:2014-03-20 16:13:24马上有房
日期:2014-03-20 16:14:11马上有钱
日期:2014-03-20 16:14:11马上有对象
日期:2014-03-20 16:14:11马上加薪
日期:2014-03-20 16:14:11技术图书徽章
日期:2014-03-27 09:30:56
发表于 2015-3-30 16:43 | 显示全部楼层
很牛的一楼,很牛的二楼,很牛的大数据

使用道具 举报

回复
求职 : 数据库管理员
招聘 : Java研发
认证徽章
论坛徽章:
6350
ITPUB9周年纪念徽章
日期:2014-05-02 10:36:402011新春纪念徽章
日期:2014-12-29 12:11:142010广州亚运会纪念徽章:卡巴迪
日期:2014-08-06 08:44:252012新春纪念徽章
日期:2014-12-29 12:11:142013年新春福章
日期:2014-12-29 12:11:14马上有车
日期:2014-12-29 12:11:14马上有房
日期:2014-12-29 12:11:14马上有钱
日期:2014-12-29 12:11:14马上有对象
日期:2014-12-29 12:11:14马上加薪
日期:2014-12-29 12:11:14
发表于 2015-3-30 16:57 | 显示全部楼层
问几个问题吧:
1:你们做的大数据分析,是落地数据分析还是其他什么方式来分析,以及如何采集数据的?
  1.1:通过你的回答感觉实时性很强,应该不是落地数据,那么实时分析,为了达到实时性,你们使用了什么技术来分析?另外,这种分析是秒级别还是微秒级别的?
2:百度拥有自己强大的流计算平台,是什么平台?基于spark stream? 还是hive ,还是什么?
3:如此大的分析,采用了什么方式的负载均衡?应付在还是软负载?如果是软负载的话,能具体说说么?

暂时就这些,问题逼格很低,大神给指点一下

使用道具 举报

回复
求职 : 数据库管理员
招聘 : Java研发
认证徽章
论坛徽章:
6350
ITPUB9周年纪念徽章
日期:2014-05-02 10:36:402011新春纪念徽章
日期:2014-12-29 12:11:142010广州亚运会纪念徽章:卡巴迪
日期:2014-08-06 08:44:252012新春纪念徽章
日期:2014-12-29 12:11:142013年新春福章
日期:2014-12-29 12:11:14马上有车
日期:2014-12-29 12:11:14马上有房
日期:2014-12-29 12:11:14马上有钱
日期:2014-12-29 12:11:14马上有对象
日期:2014-12-29 12:11:14马上加薪
日期:2014-12-29 12:11:14
发表于 2015-3-30 16:59 | 显示全部楼层
最后,给pub 提个建议:是否弄个通知提醒的功能。
就是我在这个页面可以“@” 某个人

使用道具 举报

回复
求职 : 数据库开发
认证徽章
论坛徽章:
41
2017金鸡报晓
日期:2017-02-08 14:09:13秀才
日期:2016-01-13 12:14:26秀才
日期:2016-01-12 11:23:27金牛座
日期:2016-01-03 20:58:56秀才
日期:2015-12-21 09:53:46秀才
日期:2015-12-21 09:48:11秀才
日期:2015-12-18 09:28:57秀才
日期:2015-12-14 15:02:13秀才
日期:2015-11-23 09:48:22秀才
日期:2016-01-21 13:37:04
发表于 2015-3-30 18:40 | 显示全部楼层
这就是大数据迷人之处吧!!!

使用道具 举报

回复
认证徽章
论坛徽章:
55
ITPUB15周年纪念
日期:2017-02-19 21:29:36双子座
日期:2015-11-26 23:31:18天蝎座
日期:2015-11-23 18:37:14天枰座
日期:2015-11-23 10:05:24秀才
日期:2015-11-11 09:48:44摩羯座
日期:2015-11-05 17:21:49射手座
日期:2015-10-26 15:35:30狮子座
日期:2015-10-09 09:25:42双子座
日期:2015-08-26 10:23:172015年新春福章
日期:2015-06-02 14:55:00
发表于 2015-3-30 20:41 | 显示全部楼层
本帖最后由 homershen 于 2015-3-30 20:41 编辑

百度的大数据分析~其数据源主要还是来自用户发起的搜索请求~~
如果能利用的三大运营商实时采集的手机信令数据,那么~时空大数据分析的实时性、广度、精确度就更高了~~

使用道具 举报

回复
论坛徽章:
27
2014年新春福章
日期:2014-02-18 16:50:09秀才
日期:2015-06-25 15:39:28秀才
日期:2015-06-29 15:26:52秀才
日期:2015-07-03 17:00:53秀才
日期:2015-07-14 09:44:30金牛座
日期:2015-07-21 14:01:36秀才
日期:2015-09-14 10:08:30秀才
日期:2016-02-18 09:24:18秀才
日期:2016-02-18 10:08:02举人
日期:2016-02-24 17:33:17
发表于 2015-3-31 17:24 | 显示全部楼层
还不错,顶一个

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 
京ICP备09055130号-4  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表