大数据资深专家,精硕科技集团高级技术副总裁兼nEqual首席技术官CTO,CCF(中国计算学会)大数据专委委员,北京航空航天大学特聘教授,中国大数据技术大会主席,2017年大数据行业领军人物。关注数据的采集、清洗、存储、挖掘等整个数据流过程,关注高可靠、高可用、高扩展、高性能系统服务,关注Hadoop/HBase/Storm/Spark/ElasticSearch/TensorFlow等离线、流式及实时分布式计算服务。对分布式存储和分布式计算、超大集群、大数据分析、人工智能、区块链等有深刻理解及实践经验。有超过10年云计算、云存储、大数据经验。曾在联想、百度集团、Carbonite工作,并拥有多篇大数据相关的专利和论文。
人物生平
1、2006年加入联想研究院,负责联想网盘,任高级研究员
2、2010年加入百度基础架构部,负责Hadoop平台开发,任高级研发工程师
3、2011年创业Carbonite China,负责整个Carbonite在中国的技术架构及管理,任高级架构师与技术总监(CTO)
4、2013年加入AdMaster,负责技术与架构,任技术副总裁
5、2018年任精硕科技集团高级技术副总裁兼nEqual CTO
重要事件
1、分享《分布式数据库挑战与分析》,内容主要介绍分布式数据库介绍(包括ACID、CAP理论模型等)、OLTP和OLAP对比分析、分布式数据库遇到的问题分析以及分布式数据库实际案例分析等。
2、分享《分布式存储在网盘和在线备份的应用研究》,内容主要覆盖hdfs和HBase网盘和在线备份的分布式文件系统中小文件的存储,备份文件至云端的优先级策略,文件全路径的存放方式,Namespace的管理等内容。
3、分享《Hadoop在网盘和在线备份的应用与挑战》,内容主要为HDFS和HBase在网盘和在线备份的应用、大数据的挖掘与处理、小文件的存储、备份文件至云端、文件全路径存放方式以及Namespace的管理等方面的问题。还有mongodb的经验分享:尽量创建索引;限定返回结果条数;Filter只返回需要的数据;优化主键,尽量自己控制主健ID;UUID主键使用BinaryData数据类型存储;注意文件大小不超过16M。
4、分享《大数据分布式系统并行设计与I/O优化》,内容主要为介绍了分布式并行系统定义,分布式并行系统的特点和分布式并行系统的设计,并解析了单台机器并行设计的方法,分布式并行I/O优化的方法和单台机器分布式化的设想。
5、分享《基于Hadoop的云存储应用实战》,内容主要为内容包括数据存在的隐患、云备份用户使用场景、云备份的特点、云备份系统架构、分布式数据库架构、HBase经验分享、分布式文件系统HDFS。
6、分享《Python在广告监测数据中的分析应用》,内容主要有介绍Python在广告数据分析的应用,包括数据采集,分析,挖掘,可视化等方面。
7、分享《混合异构数据的清洗、存储、挖掘架构选型和设计策略》,内容主要有在大数据互联网背景下,数据源产生非常多,导致对数据的清洗、存储、挖掘都提出非常高的要求,主要介绍由于Admaster的数据源类型多样,包括有被动获取的请求,也有微博,SNS,新闻,博客,论坛,行业网站等主动抓取的请求,所以重点介绍离线数据分析如何建立在Hadoop之上,而流式计算和实时计算则为什么采用Storm、Spark、mongodb、MySQL等。
8、分享《Hadoop在营销数据挖掘的实践》,内容主要有介绍由于广告数据的多样化,包括有曝光、点击等被动获取的请求;新浪微博、新闻、博客、论坛、行业网站等主动抓取的请求;问卷调查数据的补充;第三方数据的输入。导致对数据的清洗(ETL)、存储(Data Storage)、挖掘(Data Mining)都提出非常高的要求。将会介绍每天近100亿请求的性能是如何优化的,以及每天近1000亿数据的数据分析是如何实现的,还有数据从多IDC采集到同步中心机房如何实现分钟级的计算。最后将会重点介绍AdMaster 根据累积了超过7年的实际广告主和品牌的网络营销数千个实际案例的经验,自身研发的ADH(Advertising Distribution Hadoop)的发展及特点。其中包括内置的广告算法,应用调度器的优化,还有关于在线数据(HBase),离线数据(MapReduce),实时数据(Spark),流式数据(Storm)等方式的整合介绍。
9、分享《Hadoop在广告监测技术的实践》,内容主要介绍广告营销数据流程、广告监测技术特点、广告监测数据差异、广告数据挖掘平台架构、ADH在广告营销数据挖掘的特、AdMaster数据分析平台六点展开演讲。
社会评价
2006年硕士毕业,一直从事云存储、云计算开发及架构工作,多年Hadoop实战经验,专注于分布式存储、分布式计算、大数据分析等方向,有多个发明专利,《一种分布式文件系统及其数据访问方法》 和《一种数据备份的版本管理方法及装置》 等。曾多次被乌镇世界互联网大会、CSDN、51CTO、IT168、InfoQ、阿里技术邀请为嘉宾分享Hadoop大数据在互联网的应用。
获奖记录
1、2017年度大数据行业-领军人物
2、有发明专利《一种分布式文件系统及其数据访问方法》 ,《一种数据备份的版本管理方法及装置》 等
3、2017年获Top10大数据最佳实践案例
参考资料
AdMaster技术副总裁谈Hadoop、营销数据、Python和挖掘平台.InfoQ.2015-05-02
卢亿雷:大数据分布式系统并行设计与I/O优化.51CTO.2015-05-02
卢亿雷:基于Hadoop的云存储应用实战.中关村在线.2015-05-02
Python在广告监测数据中的分析应用.InfoQ.2015-05-02
卢亿雷:混合异构数据的清洗、存储、挖掘架构选型和设计策略.IT168.2015-05-02
Hadoop在营销数据挖掘的实践.InfoQ.2015-05-02
辉煌十载!BDTC 2017 中国大数据技术大会在京盛大召开.硅谷动力.2018-04-21