ITPUB论坛-中国最专业的IT技术社区

 手机号登录  找回密码
 注册
查看: 586|回复: 0

【名人堂】快问快答——转转算法负责人谭孟泷:算法实践在机器学习平台建设的应用

[复制链接]
认证徽章
论坛徽章:
0
发表于 2018-4-8 17:55 | 显示全部楼层 |阅读模式
本帖最后由 猫乐大人 于 2018-4-8 17:58 编辑

嘉宾介绍:
谭孟泷,转转算法负责人,负责搜索推荐风控和广告投放业务线的算法工作。曾在百度移动搜索担任资深工程师,负责排序方向。在阿里妈妈担任技术专家,负责无线广告外投算法。在人人车担任业务平台技术总监,致力于业务运营智能化。


2018中国数据库技术大会(DTCC)

主题:小而美的机器学习平台建设——转转的算法实践
演讲简介:在新兴业务中应用机器学习,既要保证业务的快速迭代,又要追求算法工作的细致程度以及可持续发展。这就对团队内部的脚手架工具链建设有了比较高的要求,如何保证整体架构简洁高效、功能简单易用,又不至于过度设计,花费太多精力,成为了每个初创团队需要考虑的问题。本次分享将介绍转转的算法团队如何通过搭建一套覆盖离线和在线的机器学习Pipeline系统来解决这个问题的。
听众受益:1. 了解一套完整的机器学习解决方案;2. 在实施过程中获取的经验教训

DTCC(Q1):  请您介绍下自己从业经历。
谭孟泷(A1):我2010年到2013年在百度,从事移动搜索的排序算法和策略开发,经历了功能机时代到智能机时代移动搜索的转变过程。
2013年中去了阿里,从事移动广告的算法研发,短暂做过一段时间的搜索广告CTR预估,后来主要精力投入到了优化淘宝投放到第三方移动App的广告的优化中。
2015年底从阿里出来,投入到了O2O大潮中,在人人车负责B端团队的技术管理。因为我之前的算法策略经历,这段时间在业务系统智能化方向做了不少有意思的探索。
2017年中,我从人人车去了转转,尝试在平台型电商里的算法实践。

DTCC(Q2):  当前,您在转转主要负责哪些工作?
谭孟泷(A2):我目前在转转负责算法相关的业务,主要包括搜索、推荐和风控,还有一部分广告效果优化的工作。

DTCC(Q3):  关于算法学习,请分享下您的经验心得。
谭孟泷(A3):谈下我对如何提高算法学习效率的一点看法吧。
首先是要明确学习的目的,然后选取合适的学习路径。
举个例子,如果是为了在业务早期快速引入机器学习,那么在了解完基础知识之后,可以迅速把精力切换到对现有工具的学习上。熟练掌握工具之后,快速去应用,然后在实际环境中收集反馈,针对具体问题去寻求解决办法。

DTCC(Q4):  业务需求要搭建一套系统,主要考虑哪些关键因素。
谭孟泷(A4):要考虑的因素很多,举两个我觉得比较重要的吧:
一是业务分解:需要根据具体业务,找到合适的模型。一般来说,业务都能分解成一些常见的场景,这些场景在业界一般都已经有对应的成熟打法,如果能借鉴,能少走很多弯路。
二是技术方案要符合团队能力:根据团队算法和工程研发的能力,制定合适的技术方案。算法和工程在一定程度上可以互补,一起实现最终效果。

DTCC(Q5):  您的业务在实施过程中,遇到哪些困难?
谭孟泷(A5):映像比较深的是在落地机器学习过程中遇到的一些工程化问题:转转早期,算法的应用重点是尽可能快地拿收益,欠下了很多工程的债。后来随着业务量增长,已经无法维继。
一是数据重复建设的问题。单兵作战阶段遗留了很多重复的数据和流程代码。我们引入了算法数据仓库,借鉴了传统数据仓库分层思想,进行了公司级的数据重构,解决了这个问题。
二是流程重复开发的问题。每个算法研发都手写Spark任务加工特征,非常低效。我们内部基于Spark MLlib的接口,开发了一套自己的机器学习套件zzml,把日常工作组件化、pipeline化,让大多数工作变成了搭积木。
三是模型上线的问题。算法同学开发好了模型的离线特征工程和训练部分,等到了上线的时候,需要工程同学再实现一次线上预测的部分。随着特征工程越来越复杂,这变得非常低效。我们在zzml里,每个组件都同时实现了离线和在线部分。这样离线开发训练完,save一下,线上的服务只需要集成zzml的SDK,就能直接load模型实现预测。


DTCC(Q6): 目前,在行业里应用成熟的算法系统有哪些?
谭孟泷(A6):样本和特征的加工:开源的Spark比较主流,如果基于云,阿里云的ODPS也是一个不错的选择。
模型训练:单机的有libsvm、liblinear、sklearn等。分布式的有Spark MLlib以及一些基于Allreduce或者PS实现的分布学习系统。DNN的Tensorflow、MXNet、PaddlePaddle等。
模型在线服务:一般需要自己实现,少数现成的像tf-serving这样的,在实际场景中,应用也有限。

DTCC(Q7): 您所在团队搭建的算法系统,有哪些业务优势?
谭孟泷(A7):一是简单易用:用过Spark MLlib就能上手,通过搭积木的方式完成大多数搜索推荐等场景的模型开发。
二是上线方便:提供预测SDK,以及模型和数据上线一整套配套的在线服务。
三是跨执行环境:在同一段程序里面做到异构的系统的无缝切换。


DTCC2018,用心才懂技术!

中国数据库技术大会(简称DTCC)是国内数据库及大数据领域规模最大、最受欢迎的技术交流盛会,每年一届。自2010年以来,迄今已成功举办了八届,累计参与人次达到20000+。DTCC每年都将邀请百余位行业专家,就热点技术话题进行分享,为数据库人群、大数据从业人员、广大互联网人士及行业相关人士提供最具价值的交流平台。
2018年5月10-12日,第九届中国数据库技术大会(DTCC2018)将如约而至。本届大会以“数领先机•智赢未来”为主题,设定2大主会场及21个技术专场,邀请来自国内外互联网、金融、教育等行业百余位技术专家,共同探讨Oracle、MySQL、NoSQL、大数据、机器学习、区块链、数据可视化等领域的前瞻性热点话题与技术。
欢迎扫码关注DTCC官方微信,获取最新信息!




您需要登录后才可以回帖 登录 | 注册

本版积分规则

TOP技术积分榜 社区积分榜 徽章 电子杂志 团队 统计 虎吧 老博客 知识索引树 读书频道 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档 | IT博客
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛 | SAP ERP系统
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 网站律师 隐私政策 知识产权声明
京ICP备16024965号 北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表