今日头条王烨：真正数据驱动的公司是这样使用数据的

2017-04-11 leiting (4042阅读)

【51CTO.com原创稿件】在前往今日头条的路上，一直考虑对于这样一家数据驱动的公司，访问哪个方向会更受关注，是个性化新闻推荐、不同业务之间算法差异，还是敏感信息屏蔽、新闻源抓取？可是，在这个阳光温暖的午后，与今日头条基础数据平台架构师王烨长达一个多小时的交流中，我们的话题不知不觉一直围绕着一个主题，那就是如何使用数据。

基础数据平台——是数据驱动型公司发展到一定阶的必需

今日头条（以下简称头条）于2012成立，王烨于2014年加入，那时候，公司仅三百人。随着公司发展，数据量递增式爆棚，见证了基础数据平台从无到有、从小到大的历程，所以他由来解读平台的方方面面，再合适不过。

王烨·今日头条基础数据平台架构师

什么时候需要建设基础数据平台？对于初创公司来讲，核心是服务好用户，做好产品功能的迭代。当公司发展到一定阶段，业务开始多元化并开始精细化运营，数据需求变多，产生的数据量和数据处理复杂度也大幅增加，这时就该建设基础数据平台了。王烨介绍，2014年的头条每天只有几百万活跃用户，支撑好产品是首要任务，并没有专门的人负责做数据。众多复杂业务的上线，同步会招聘大量的PM（产品经理）和运营。基于刻到骨子里的数据驱动的思想，各种各样的数据需求源源不断的被提上来，这时不再是几个数据工程师单打独斗就能解决问题了，而让PM和运营直接分析数据的门槛也很高。面对这些情况，头条的做法是成立数据平台团队，把数据基础设施像Hadoop、Hive、Spark、Kylin等封装成工具，把这些工具结合通用的分析模式整合成完整的解决方案，再把这些解决方案通过平台的形式，提供给业务部门使用。数据平台也有一个演进的过程，并不需要追求从开始就大而全，不同阶段采用的技术能匹配当时需求就好。

基础数据平台的职责什么？推荐业务是头条最重要的业务之一，从其需求出发，搭建面向全公司的通用数据平台。用户数据（内容偏爱、行为轨迹、阅读时间等）是头条最庞大的数据源，这些被记录下来的数据反映了用户的兴趣，会以各种形式传输和存储，并提供给全公司各个业务系统来调用。还要维护面向RD（分析师）数据工具集（日志收集、入库、调度、依赖管理、查询、元数据、报表），面向PM、运营的通用用户行为分析平台，底层查询引擎（Hive, Presto, Kylin等OLAP查询引擎，支撑上层数据平台和数据仓库），平台基础数据仓库及协助维护业务部门数据仓库。

建设基础数据平台需要面临哪些挑战？数据生命周期分为生成、传输、入库和统计/分析/挖掘，每个环节的难度都会随着数据规模的变大而上升。当前，头条每日处理数据量为7.8PB、训练样本量200亿条、服务器总量40000台、Hadoop节点3000台。庞大数据量和业务复杂度给数据生成、采集、传输、存储和计算等带来的一系列问题是平台建设要克服的挑战。

数据生成与采集——SDK、用户埋点

一般情况下，数据生成与采集是很简单的事，但对于头条这个功能众多的APP来讲，难点就在于每个功能背后都是一个团队独立运营。如果每个团队都用自研的数据采集的方法，那会给后续的进程带来巨大的困扰。那怎么办呢？王烨介绍了他们分析和决策的过程，头条属于C端业务公司，主要以日志形式为主，数据的主要来源是用户行为，那么就以采用事件模型来描述日志，以SDK形式接入，支持客户端、服务端埋点。这里需要注意的是：数据质量很重要，埋点规范趁早确立，脏数据是不可避免的，可以引入必要的约束、清洗等。

埋点就是用户在使用某一个功能时，产生的一段数据。头条初期，埋点由各业务场景自定义日志格式，之后埋点统一到事件模型，保证了信息的结构化和自描述，降低了后续使用成本，并复用统一的解析和清洗流程、数据仓库的入库和行为分析平台的导入。埋点的管理，也由通过文档、Wiki等方式演进成埋点管理系统，覆盖整个埋点生命周期。这样一来，也得到了埋点元信息的描述，后续可应用在数据清洗、分析平台等场景，同时埋点的上线流程实现标准化，客户端也可进行自动化测试。

数据平台实现了通用的客户端埋点SDK和服务端埋点SDK，放弃之前按约定生成数据的方式，可以保证生成的日志符合埋点规范，并统一App启动、设备标识等的基本口径，也减少了新App适配成本。对数据的描述由使用JSON改为Protobuf，这样就可通过IDL实现强制约束，包括数据类型、字段命名等。

除了日志数据，关系数据库中的数据也是数据分析的重要来源。头条在数据的采集方式上，用Spark实现类Sqoop的分布式抓取替代了早期定期用单机全量抓取Mysql数据表的方式，有效的提升了抓取速度，突破了单机瓶颈。再之后为了减少Mysql压力，选用Canal来接收Mysql binlog，离线merge出全量表，这样就不再直接读Mysql了，而且对千万/亿级大表的处理速度也会更快。

数据传输——Kafka做消息总线连接在线和离线系统

数据在客户端向服务端回传或者直接在服务端产生时，可以认为是在线状态。当数据落地到统计分析相关的基础设施时，就变成离线的状态了。在线系统和离线系统采用消息队列来连接。头条的数据传输以Kafka作为数据总线，所有实时和离线数据的接入都要通过Kafka，包括日志、binlog等。王烨提醒，这里值得注意的是：尽早引入消息队列，与业务系统解耦。

头条的数据基础设施以社区开源版本作为基础，并做了大量的改进，也回馈给了社区，同时还有很多自研的组件。因为以目前的数据和集群规模，直接使用社区版本乃至企业版的产品，都会遇到大量困难。像数据接入，就自研Databus，作为单机Agent，封装Kafka写入，提供异步写入、buffer、统一配置等feature。

Kafka数据通过Dump落地到HDFS，供后续离线处理使用。随着数据规模的增加，Dump的实现也经历了几个阶段。最初实现成的是类似Flume模式的单机上传，很快遇到了瓶颈，实现改成了通过Storm来实现多机分布式的上传，支持的数据吞吐量大幅增加。现在开发了一个叫DumpService的服务，作为托管服务方便整合到平台工具上，底层实现切换到了Spark Streaming，并实现了exactly-once语义，保证Dump数据不丢不重。

数据入库——数据仓库、ETL（抽取转换加载）

头条的数据源很复杂，直接拿来做分析并不方便。但是到数据仓库这一层级，会通过数据处理的过程，也就是ETL，把它建设成一个层次完备的适合分析的一个个有价值的数仓。在数仓之上，就可以让数据分析师和数据RD通过SQL和多维分析等更高效的手段使用数据。

数据仓库中数据表的元信息都放在Hive metastore里，数据表在HDFS上的存储格式以Parquet为主，这是一种列式存储格式，对于嵌套数据结构的支持也很好。

头条有多种ETL的实现模式在并存，对于底层数据构建，一种选择是使用Python通过Hadoop Streaming来实现Map Reduce的任务，但现在更倾向于使用Spark直接生成Parquet数据，Spark相比MapReduce有更丰富的处理原语，代码实现可以更简洁，也减少了中间数据的落地量。对于高层次的数据表，会直接使用Hive SQL来描述ETL过程。

数据计算——计算引擎的演进

数据仓库中的数据表如何能被高效的查询很关键，因为这会直接关系到数据分析的效率。常见的查询引擎可以归到三个模式中，Batch类、MPP类、Cube类，头条在3种模式上都有所应用。

头条最早使用的查询引擎是InfoBright，Infopight可以认为是支持了列式存储的Mysql，对分析类查询更友好，但Infopight只支持单机。随着数据量的增加，很快换成了Hive，Hive是一个很稳定的选择，但速度一般。为了更好的支持Adhoc交互式查询，头条开始调研MPP类查询引擎，先后使用过Impala和Presto，但在头条的数据量级下都遇到了稳定性的问题。头条现在的方案是混合使用Spark SQL和Hive，并自研QAP查询分析系统，自动分析并分发查询SQL到适合的查询引擎。在Cube类查询引擎上，头条采用了Kylin，现在也是Kylin在国内最大的用户之一。

数据门户——为业务的数据分析提供整体解决方案

对于大部分需求相对简单的公司来说，数据最终可以产出报表就够用了，如做一个面向管理层的报表，可以让老板直观的了解一些关键性指标，这是最基础的数据应用模式。再深入一点，就需要汇总各种来源的业务数据，提供多种维度和指标来进行更深入的探索型分析，得到的结论用来指导产品的迭代和运营。王烨表示，头条绝大部分业务都是数据驱动的，都需要产出和分析大量的数据，这就或多或少需要用到平台的提供的系列工具。

头条开发了一套叫数据门户的平台系统，提供给业务部门使用，对数据生命周期各个环节都提供了相应支持。数据门户提供的工具都是声明式的，也就是让使用者只需要说明要实现什么目的，具体实现的复杂细节都隐藏起来，对使用者更友好。通过这些工具，可以让业务部门的RD、分析师、PM等将精力放在业务分析本身，而不是去学习大量数据基础设施的使用方法。

今日头条王烨：真正数据驱动的公司是这样使用数据的

数据抽取平台QueryEditor

今日头条王烨：真正数据驱动的公司是这样使用数据的

数据抽取平台QueryEdito使用界面

数据抽取平台QueryEditor，用于数据生命周期管理，对Kafka数据Dump、数据仓库入库、SQL查询托管等做了统一支持。

基础数据平台理念及方向——降低使用门槛提升工具易用性

基础数据平台的理念就是提供整体解决方案，降低数据使用门槛，方便各种业务接入。互联网产品的数据分析模式也是相对固定的，比如事件多维分析、留存分析、漏斗分析等，把这些分析模式抽象出工具，也能覆盖住大部分常用需求。同时期望参与业务的人比如PM等能更直接的掌握数据，通过相关工具的支持自行实现数据需求，尽量解放业务部门工程师的生产力，不至于被各种临时跑数需求困扰。而对于更专业的数据分析师的工作，也会提供更专业的工具支持。

http://developer.51cto.com/art/201704/536607.htm

IT PHP 编程语言开发编程 Linux 科技 Elasticsearch HTML/CSS/XML 数据库面试网络 JAVA NoSQL C/C++ 操作系统 Golang Git 算法正则表达式 Redis 互联网 MySql 软件运维 JavaScript 国际架构设计 Mac OS TCP/IP Excel Windows Oracle Socket VR Vim MongoDB 运营商业 Python MemCache 硬件电子娱乐设计摄影 nginx WordPress 游戏 HTTP 团建数码电器 Docker 大模型

ICP-MS质谱仪的绿色探索为何商业精英青睐私人飞机与公务机？ Debian Linux下 vim打开文件，鼠标选中后进入可视模式无法复制粘贴问题的解决赛默飞液相色谱解决方案将用创新技术赋能复杂分析科学分析中样品瓶选择对色谱与质谱检测结果的影响及 SureSTART 解决方案 LC-MS技术在复杂样品分析中的独特优势 linux下修改docker使用的磁盘目录

略微加速

略速 - 互联网笔记