今日头条技术架构分析
当用户开始使用今日头条后,对用户动作的日志进行实时分析。使用的工具如下:
- Scribe
- Flume
- Kafka
我们对用户的兴趣进行挖掘,会对用户的每个动作进行学习。主要使用:
- Hadoop
- Storm
产生的用户模型数据和大部分架构一样,保存在MySQL/MongoDB(读写分离)以及Memcache/Redis中。
随着用户量的不断扩展大,用户模型处理的机器集群数量较大。2015年前为7000台左右。其中,用户推荐模型包括以下维度:
1 用户订阅
2 标签
3 部分文章打散推送
此时,需要每时每刻做推荐。
头条是怎么发展起来的
我们日常产生原创新闻在1万篇左右,包括各大新闻网站和地方站,另外还有一些小说,博客等文章。这些对于工程师来讲,写个Crawler并非困难的事。
接下来,今日头条会用人工方式对敏感文章进行审核过滤。此外,今日头条头条号目前也有为数不少的原创文章加入到了内容遴选队列中。
接下来我们会对文章进行文本分析,比如分类,标签、主题抽取,按文章或新闻所在地区,热度,权重等计算。
今日头条的组织构架
“其实,头条的通用搜索业务已经上线一年了。最近对比测试显示,在用户体验方面,头条搜索已经进入了业界的第一梯队。”面对《每日经济新闻》记者在内一众媒体对于今日头条进军搜索领域的好奇和疑问,今日头条新上任的CEO朱文佳首次公开回应了今日头条备受关注的搜索业务。
今日头条早期做搜索遇到了不少挑战,朱文佳告诉记者,早期的挑战和困难是投入太小,“搜索这个事情至少需要100人团队才能做好,早期只有几个人,那个时候最大的困难是实在没有人。这两年把团队建好之后,其实发展非常快。”
对于不断扩充边界的今日头条来说,进军搜索领域并不是一句空话。早在今年8月,今日头条已经官宣了搜索功能。这意味着,今日头条可能冲击百度、搜狗等传统搜索引擎所占据的市场份额。
《2018年中国搜索引擎行业市场格局与发展趋势分析》报告显示,截至2019年6月,从综合排名来看,百度依然是绝对的一家独大,市场份额微升;搜狗搜索市场份额比较稳定,近一年都是维持在14%左右。
事实上,每经记者注意到,伴随着用户将注意力和时间更多的放在短视频、聊天平台上时,中国搜索市场的竞争早已不是传统搜索公司之间的竞争。近年来,为了更好的吸引用户、提升用户黏性,主流搜索引擎也开始利用平台入口优势,通过连接新闻、短视频等内容,推出信息流产品。
朱文佳认为,头条是一个信息分发平台,搜索是信息分发的一种基础形式。“做搜索,其实是对内容分发方式的丰富和完善。推荐引擎是信息找人,搜索引擎是人找信息。推荐引擎和搜索引擎是可以无缝结合在一起的,它们能互相促进。”
简单来看,在今日头条加码搜索赛道的背后,对于在内容分发、短视频等信息流具有优势的今日头条而言,其在搜索业务上模式更倾向于YouTube模式,基于大量内容生态,区别于百度的纯搜索。
今日头条新任CEO朱文佳(主办方供图)
朱文佳告诉每经记者:“整个泛资讯赛道我认真算过,日活至少是6亿级的市场,空间足够大。但目前来看,我觉得没有一家能够在体验上做到非常完美,让用户毫不犹豫的选择,所以呈现出多家相对来说比较焦灼的状态,我们希望未来几年踏踏实实把搜索、内容生态等做好,让用户觉得你们的产品确实比别人做的好。”
今日头条做搜索会不会和百度未来产品越来越像?是否会对标百度?对于记者的疑惑,朱文佳坦诚道:“我自己判断是会的,百度确实会成为强有力的竞争对手,但是不是头号竞争对手,要看再过两年到底哪家做的更好。”
在算法出身的朱文佳看来,做好搜索业务优势和关键在于四点:即技术、内容生态、内容质量以及做产品的初心问题。而面对在泛资讯市场,今日头条的“雄心”有多大,朱文佳笑了笑说道:“现在说这个可能还太早。目前还是先把用户体验做最好,然后等待结果。”
流量反哺内容 推出万人月薪万元计划
早期的今日头条是一个信息聚合平台, 2012年只有“今日头条”一个栏目。2014年,头条号诞生,2016年,今日头条提出All in 短视频,2017年,问答和微头条发布,2019年,正式推出搜索。头条的边界不断拓宽,头条号被认为对标微信公众号,问答和微头条则被认为对标微博,搜索则不用说,对标百度。
这让外界对今日头条的业务边界有很多猜测,朱文佳则表示,今日头条已经有了非常清晰的产品逻辑,那就是“一横一竖”:“一横”是尽可能丰富的内容体裁,”一竖”是尽可能多的分发方式。
今日头条的组织构架
今日头条重要的部分在于:
数据生成与采集
数据传输。Kafka做消息总线连接在线和离线系统。
数据入库。数据仓库、ETL(抽取转换加载)
数据计算。数据仓库中的数据表如何能被高效的查询很关键,因为这会直接关系到数据分析的效率。常见的查询引擎可以归到三个模式中,Batch 类、MPP 类、Cube 类,头条在 3 种模式上都有所应用。
今日头条的组织构架
- 自动选择候选文章
- 根据用户站内外动作
头条的频道,在技术侧划分的包括分类频道、兴趣标签频道、关键词频道、文本分析等,这些都分成相对独立的开发团队。目前已经有300+个分类器,仍在不断增加新的用户模型,原来的用户模型不用撤消,仍然发挥作用。
在还没有推出头条号时,内容主要是抓取其它平台的文章,然后去重,一年几百万级,并不太大。主要是用户动作日志收集,兴趣收集,用户模型收集。
资讯App的技术指标,比如屏幕滑动,用户是不是对一篇都看完,停留时间等都需要我们特别关注
今日头条的组织构架
消息推送,对于用户: 及时获取信息。对运营来讲,能够 提⾼⽤用户活跃度。比如在今日头条推送后能够提升20%左右的DAU,如果没有推送,会影响10%左右 DAU(2015年数据)。
今日头条推送的主要内容包括突发与热点咨讯,有人评论回复,站外好友注册加入。
在头条,推送也是个性化:
- 频率个性化
- 内容个性化
- 地域
- 兴趣
比如:
按照城市:辽宁朝阳发生的某个新闻事件,发给朝阳本地的用户。
按照兴趣:比如京东收购一号店,发给互联网兴趣的用户。
推送平台的工具和选择,需要具备如下的标准:
- 通道,首先速度要快,但是要可控,可靠,并且节省资源
- 推送的速度要快,有不同维度的策略支持,可跟踪,开发接口要友好
- 推送运营的后台,反馈也要快,包括时效性,热度,工具操作方便
- 对于运营侧,清晰是否确定推荐,包括推送的文案处理
因此,推送后台应该提供日报,完整的数据后台,提供A/B Test方案支持。
推送系统一部分使用自有IDC,在发送量特别大,消耗带宽较严重。可以使用类似阿里云的服务,可有效节省成本。
今日头条的组织构架
张一鸣、王兴、程维就是这些特别优秀大学生代表。
像来自福建龙岩的小伙张一鸣,报考天津南开大学的初衷居然是“那里有许多漂亮女生”,到大学一看倒是有几个漂亮女生,可那些名花早就有主了,像他这样的“嫩鸡仔”边都沾不上。
让小张郁闷的不仅是女朋友找不到,所学专业也不喜欢,那个微电子专业天天要围着一堆电器件忙活,实在激不起张一鸣的一点兴趣。为此,张一鸣天天蹲在系主任门口哀求转到软件工程专业。
专业一换,张一鸣立马就找到了感觉。此后3年,他潜心钻研编程技术,写了十几万行的代码,最后成功发明了一个电路板自动化软件,并获得了全国大学生“挑战杯”二等奖。
从此,小张开始对软件着迷,天天泡在软件编程的小世界里。大学一毕业就用软件开始了第一次创业。
小张认为大公司肯定需要一个强大的协同办公软件,于是张一鸣找来两个同学,组建一个3人小团队开发。软件倒是开发出来了,不过半年没有卖出去一套。
初试不成后,小张2006年进入旅游搜索网站酷讯,他是公司的第一个工程师。随后,用了一年多的时间,研发出国内第一个全旅游搜索引擎,奠定了酷讯在生活搜索领域的领军地位。
后来美团的王兴花了数千万美元收购酷讯网,正是看中张一鸣当时研发的这套搜索系统。
小张2008年离开酷讯,去了微软,9月份离开微软,以技术合伙人身份加入王兴的饭否网创业,负责饭否的搜索、消息分发、热词挖掘、防作弊等方向。
10月份饭否被关闭后,张一鸣开始第一次独立创业,创办垂直房产搜索引擎_九九房_。
2012年,辞去九九房CEO的职务,开始第五次创业。当年5月份推出实验性产品_内涵段子_,与_今日头条_现在的技术结构一模一样。收到不错的反响之后,在8月份推出_今日头条_。
就这样在七年时间里,连续五次创业。虽然形式上有独立创业也有与别人合伙创业。从结果看前4次都以不同程度失败了,可在小张看来每次创业经历都是收获满满的。
他不仅在技术上越来越熟练精进,在技术之外的方方面面也是越来越成熟了。
而且小张认为前面4次创业经历也是不断试错的过程,没有这个过程就没有后面的“头条”!
做“今日头条”意思是把创业方向定在媒体,或者说是定在了做内容。这个方向可不是“蓝海”,从互联网起步就是从门户网站做起的,搜狐、新浪、网易都是这方面资深玩家。
后来互联网进入时代,博客、微博也是经营内容的,到了BAT的百度,更是以搜索引擎为核心大做内容的文章。
此次“头条”做内容有什么新意吗?
当然,没有新意头条就不可能“异军突起”。就在互联网大佬们不再关注内容创业时,张一鸣才有机会从“红海”里再创出一片“蓝海”。
今日头条的组织构架
通过三层实现,通过 PaaS 平台统一管理。提供通用 SaaS 服务,同时提供通用的 App 执行引擎。最底层是 IaaS 层。
IaaS 管理所有的机器,把公有云整合起来,头条有一些热点事件会全国推广推送,对网络带宽比较高,我们借助公有云,需要哪一种类型计算资源,统一抽象起来。基础设施结合服务化的思路,比如日志,监控等等功能,业务不需要关注细节就可以享受到基础设施提供的能力。