关键词:
Flink
信息流
实时数据仓库
实时数据计算
数据可视化
大数据
摘要:
论文选题来源于百度移动生态数据研发部门的实际项目。百度的搜索和信息流是百度APP的两大流量引擎,是满足用户精准需求和泛需求的核心产品。搜索实现的是人找信息,信息流实现的是信息找人,有效覆盖了用户更广的需求场景。现如今,随着企业对数据驱动决策重要性的认识不断加深,公司越来越重视实时数据分析的巨大价值,渴望从海量的信息流消费数据中快速有效分析出有实际意义的信息。
论文设计和实现了一个基于Flink的信息流实时统计分析系统,对信息流消费数据进行实时采集,搭建信息流实时数据仓库,完成实时数据统计分析,并实现了对信息流消费数据的可视化展示。同时,为了保证数据资产安全,针对整个系统做了权限控制。论文实现了系统的功能模块包括实时数据采集、实时数据仓库建设、实时数据统计分析、实时数据可视化和权限管理模块。实时数据采集模块用于完成用户对信息流的消费数据的实时采集;实时数据仓库模块用于建立统一的、可靠的信息流实时数据仓库;实时数据统计分析模块用于实现对海量信息流消费数据进行各种统计分析;实时数据可视化模块用于将实时数据统计分析结果以图表的形式直观展式出来,让业务方更快直观速地了解业务情况,做出决策;权限管控模块用于权限控制,保证数据资产安全。论文采用新型数据开发模式以及多版本宽表搭建信息流实时统计分析系统。针对用户请求使用Ngnix做负载均衡,采用Flume采集用户行为数据,Maxwell实时同步业务变化数据,通过消息中间件Kafka传递数据,使用Flink流式计算引擎进行实时数据计算并搭建实时数据仓库。同时,系统为应对不同数据存储场景,使用了图灵、Doris和Click House不同的数据库进行数据存储。此外,系统使用百度自研的TDS平台进行任务调度,TDA可视化平台做数据的可视化展示。
论文完成的信息流实时统计分析系统能够覆盖绝大多数场景下的信息流实时统计分析需求,计算效率高,使得业务方能够快速直观得到统计分析结果,更快做出业务决策;系统也能让业务方进行自主统计分析,大大减少了数据研发人员工作量;系统能够为外部信息流推荐系统提供可靠的训练数据,提高推荐系统的信息流推荐准确性。目前,该系统已成功部署并投入运行,经过一段时间的实践应用,业务需求自助化完成率提高了50%,用户满意度提高至98%,极大的方便了业务方的数据统计分析。