MarTechApe

View Original

Netflix如何活用A/B测试、准实验、消费科学实验,来改善流媒体体验?

原创:MarTechApe

在简直是刷剧的黄金时期。此时此刻(除了玩儿动森),没有什么比成为Netflix会员更让人兴奋的事情了。每天宅在家里,那些平时没有时间看的经典好剧(比如获得金球奖的The Crown,获得奥斯卡的The White Helmets《白盔部队》)可以任你刷。Netflix现已成为真正的全球互联网电视网络,几乎可以在世界各地使用。会员人数超过1亿,而会员中大约有一半居住在美国境外。

拥有出色的互联网电视服务的关键因素是流媒体的体验质量(QoE, Quality of Experience)。Netflix的目标是确保用户可以坐下来在Netflix上观看自己喜欢的电影或电视剧,获得令人愉悦的画质,流畅的播放和无缝的体验,不会受到干扰或报错。当Netflix为世界各地的用户提供服务时,这个规模会让情况变得更加复杂,因为世界各个地区的网络基础设施不尽相同,各地人民在网络上消费内容产品的习惯也不一样。

那Netflix如何确保圣保罗、孟买和曼谷的流媒体体验与旧金山、伦敦或巴黎的体验一样令人愉悦呢?

今天的这篇文章,我们将重点介绍在Netflix进行的改善QoE的实验,包括实验类型、数据科学发挥的关键作用,以及Netflix的文化如何使这家企业能够通过连续的实验进行创新。这篇文章并不会深入探讨实验背后的统计数据,但会概括Netflix正在面临的一些统计挑战。

什么是流媒体体验质量?

对于我们播放的每部电影或每集节目,视频质量都是恒定不变的吗?并不是。其实,Netflix会通过编码来创建不同视频质量级别(比特率)的文件,然后将文件缓存在全球各地的服务器上。当用户启动播放时,客户端自适应流算法会根据网络和其他考虑因素选择要传输的最佳比特率,而服务器端算法则确定如何将数据包最好地发送到客户端。

 

决定QoE的因素包含以下三个方面:

1. 自适应的流媒体

确保用户拥有良好的QoE的关键部分是在于播放流媒体的设备上运行的代码。Netflix可在数千种设备上使用,从手机、平板电脑到游戏机、计算机和智能电视。大多数设备运行由Netflix开发的自适应流媒体算法,该算法决定在流媒体播放期间的各个时间应选择哪种比特率。这些比特率的选择决定了屏幕上视频的质量,并且还直接影响了设备上的本地缓冲区使用的速度。当缓冲区用尽时,播放会中断,并发生“重新加载”的提醒。

人们都享受出色的播放体验。希望有高品质的播放,并且播放不会意外停止。但实际上,网络连接的问题可能使这一目标无法实现。我们能做的是设计算法,可以快速检测网络吞吐量的变化并实时进行调整,以提供最佳的体验。

鉴于我们为全球数以百万计的用户提供内容的同时面临着复杂的网络环境、不同的网络条件及各种各样的设备限制,因此有必要依靠科学方法来调整现有算法并开发可适应各种场景变化的新算法。自适应流媒体工程师使用A/B测试来开发和不断改进算法和配置,从而为Netflix上的每个流媒体会话提供最佳体验。

2. 内容传输

OpenConnect是Netflix的内容传输网络(CDN),它负责提供在流媒体上播放内容所需的视频和音频文件。广义来说,Open Connect允许我们将内容放置在尽可能接近我们的用户的位置,以最大程度地提高交付效率和QoE。Open Connect团队通过与网络服务提供商(ISP)合作,通过将带有Netflix内容的服务器嵌入ISP网络内部来本地化Netflix流量。Open Connect还在网络互连的位置(例如,互联网交流)与ISP合作看齐。

OpenConnect的工程师优化了提供Netflix内容的服务器上的硬件和软件。这使我们能够针对视频的特定目的调整服务器配置,软件和算法。例如,缓存算法根据推算哪些影片最容易被会员观看来决定哪些内容将会被存储在服务器上。工程师还开发了网络传输算法,该算法确定如何通过网络将数据包从服务器发送到用户的设备。

与客户端上的自适应流媒体传输相似,随着我们开发用于内容交付的新架构和算法,实验可以在Open Connect中实现快速迭代和创新。由于系统的性质,该领域的复杂性不言而喻;在某些情况下,进行传统的随机实验是不切实际的,因此我们需要调整实验技术以获取因果关系。

3. 编程方式 

内容的感知质量也是流媒体的重要方面,并直接影响屏幕上显示的内容。感知质量与称为编码的过程有关,该过程是将与电影或节目相对应的原始“源”文件压缩为较小的文件,或者以不同的比特率进行“编码”。编码算法是Netflix的创新领域,Netflix的编码团队取得了一些重大进步,可以在给定的网络带宽下提供更好的感知质量,或者在特定的质量水平上使用更少的比特。最近,工程师们一直在为低带宽的流媒体播放开发更有效的编码。

编码更改对实验提出了不同的挑战,因为这些更改通常特定于每个电影或电视节目中的内容。例如,动画片与动作惊悚片的编码更改效果可能不同。此外,确保编码更改与客户端应用程序以及用于播放Netflix的设备上的解码器相互兼容也很重要。

在我们推出一种新的编码算法(也意味着对整个Netflix目录进行重新编码)之前,编码团队会进行实验以验证更改并衡量对QoE的影响。此类实验的设计非常有挑战性,因为涉及与内容相关的交互作用以及需要确保在各种各样的设备上进行测试。

如何通过实验来提升QoE?

为了改善用户的QoE,Netflix通过进行三类实验来了解QoE对用户行为的影响。

1. 系统实验

系统实验的目的是确定新算法,对现有算法的更改或更改配置的参数是否会对QoE指标产生预期的影响。例如,与QoE相关的指标包括视频质量,重新缓冲,播放延迟(从开始播放到播放开始之间的时间),播放错误等。这些实验的假设通常与这些指标中一个或多个的改进有关。 

系统实验通常以随机A/B测试的形式进行。系统测试可能持续数小时或数天,具体取决于更新和改动的类型,并考虑每日或每周的流量。拥有1亿用户的Netflix能够相对快速地获取数百万个样本,从而可以快速迭代并按顺序运行多个系统实验来优化系统。

从实验者的角度来看,这些快速的系统实验使Netflix可以探索新的实验方法。例如,我们可以探索新的将用户分成实验组和对照组的策略,让我们更快的可以从实验中得出结论。我们还将根据实验数据构建统计模型,从而减少实现既定目标所需的迭代次数。

在这方面的测试带来了许多挑战,这些挑战也激励着我们的研究。以下是几个示例。

大多数QoE指标的分布都不是高斯分布,因此需要一种假设检验方法来说明这种分布。因此,Netflix在分析中大量使用非参数统计方法来建立确保实验结果具有统计意义。在非常大的数据集上使用非参数方法可能会非常慢,这是Netflix正在研究的领域。

此外,在这些实验中,我们通常会在多个实验组中测量多个QoE指标,其中一些有相关性,并且需要考虑多重测试问题。


2. 准实验和因果推理

我们的大多数系统实验都是随机A/B实验。但是,在特定情况下,随机化是不可行的,Neflix诉诸于其他方法,例如准实验和因果推理。

我们正在研究准实验的一个领域是测试Open Connect中算法的更改。如果我们有兴趣测试一种新的算法来填充缓存中的内容,那么理想情况下,我们将进行A/B实验,其中一个缓存集群作为控制对象,另一个作为实验对象。但是,由于到这些群集的流量无法随机化,因此无法进行A / B实验。

在这种情况下,我们进行准实验并应用因果推理技术来确定变更的影响。在这个领域中存在许多挑战,例如找到匹配的对照组,确定实验组和对照组之间可以进行比对的关系以及考虑网络效应。

3. 消费者科学实验

系统和准实验可能会导致消费者科学实验

“消费者科学”实验旨在了解功能或服务的变化对Netflix用户行为的影响。通常,这些实验是在系统实验或准实验的几次迭代完成后进行的,以确保新算法或配置更改对QoE指标能够实现预期的影响。这使Netflix能够研究QoE更改对用户行为的影响:1)如果有更好的视频质量,较低的缓冲或更快的播放速度,用户是否观看更多的Netflix,以及2)在免费试用期结束和随后的几个月,用户是否留存?

我们还可以研究在QoE指标之间进行权衡取舍对用户行为的影响:用户是否更喜欢视频质量较低但较低的播放延迟(视频开始播放速度较快),还是用户更愿意接受等待更长的时间但更高的播放质量呢?

消费者科学实验通常需要至少一个月的时间,因此我们可以在免费用户月之后获得用户留存率的信息。这些实验面临的一个有趣挑战是,会员对QoE是有不同的期待的,我们需要根据期待的不同将用户进行分层。例如,如果我们牺牲画质来减少播放延迟可能会被地处偏僻,网络状态不太好的用户偏爱,但对于那些拥用稳定的高速网络连接的用户来说,体验会被大打折扣。由于QoE的更改可能对用户来说不易察觉,因此分析用户偏好的问题变得更加困难。并且由于QoE的更改,行为更改可能需要一段时间才能显现出来。

 

Netflix的实验文化

还有很重要的一点,值得讨论的是公司文化如何在实验中发挥重要作用。Netflix的文化基于“自由与责任”的核心概念,并拥有充满激情和创新精神的出色同事。当公司拥有很多具有出色创意并才华横溢的员工时,需要注意的一点是要采用一个框架,在该框架中可以开发和测试任何新创意,并使用数据(而非意见)来制定决策。实验提供了这个框架。 

确保实验文化需要高级别的前期投入。在Netflix,我们寻求在尽可能多的业务领域进行试验,并尝试将科学严谨性纳入我们的决策中。

数据科学确保了适当的统计严谨性,因为Netflix通过实验来确定用户所体验的产品和服务的种类。数据科学需要不断提出新想法并改进Netflix上的实验方式。我们的数据科学家大量参与我们运行的实验设计,执行,分析和决策,他们还致力于推进实验方法。

除了科学之外,拥有运行实验和分析实验的基础设施也很重要,Netflix的工程团队致力于改善实验平台。该平台可实现自动化启动实验,以及在实验的各个阶段自动生成分析报告和可视化效果。

Netflix引领着互联网电视革命,并正在改变世界各地人们观看电影和电视节目的方式。Netflix的数据科学家和工程师在快速有趣的环境中解决难题。他们用不同文化背景的故事吸引了各行各业的数百万人,这既鼓舞人心,也非常令人满意。

近期开课

MarTechApe的《A/B测试企业级实战训练营》以真实商业场景中的复杂A/B测试问题为项目背景,让学员在两个月的时间里,使用百万量级原始数据,搭建完整的A/B测试流程。在过去开办的两期《训练营》中,我们为顶尖科技公司输送数据能力强、实验经验丰富、统计基础扎实的数据人才。不论你本来是什么背景,都能通过这门课程,打开盛行“测试文化”的互联网高科技公司的大门!

以下为往期学员的战绩榜:

《A/B Testing Bootcamp》往期学员拿到的面试机会以及全职工作OFFER包括Facebook、Amazon、TikTok、Viagogo、GSK、Walmart、Pinterest、Chegg、Wish、Twitch、Plymouth Rock、Nintendo等互联网科技公司。

今天,MarTechApe《A/B测试企业级实战训练营》正式开启第3期报名!
每一期训练营,我们只招收20名学生。先到先得,遵循阶梯价位,优惠逐额递减,越早报名越优惠!

  • 真枪实弹的A/B测试项目实操,百万量级真实数据+五大应用案例,从零学会A/B测试的里里外外!

  • 为你建立一个完整的、专业的、深度还原大公司的的A/B测试项目,让你在面试时可以自信展示自己亲自做的案例,成功拿下offer!

  • 从0到100真实操作A/B测试项目的全套流程:数据清洗、数据自动化处理、实验设计、实验执行、结果分析、报告展示

  • 经历真实工作场景中的、各大互联网科技公司里使用的A/B测试流程,以及适应不同商业场景的各类实验/准实验方法。学会工作中最重要的分析方法!

  • 深度学习A/B测试实战中常见的测试陷阱及避免方法。

  • 牢固掌握公司里A/B测试项目中的实际SQL与Python应用,为A/B测试搭建数据库、清理数据、创建数据集。

  • 学会用Python自动化实现A/B测试,为你的老板提高100%的工作效率!

  • 接受系统的统计训练,打下坚实牢固的统计基础,彻底明白A/B测试的统计原理、分析方法、实验设计方法、抽样准则。

  • 各大互联网、科技公司A/B testing面试题解题步骤示范与详细解析。对互联网科技公司的深度剖析和指标介绍,让你自如面对各类面试考验!

  • 专业的Bootcamp经历简历模版认证证书,可以晒到LinkedIn等求职网站,大大提高面试邀请率!

  • 福利升级:训练营以往只内推成功从训练营中毕业的学生。但在疫情期间,所有A/B测试实战训练营学员,均可获得全职或实习岗位的内推机会!

Emma老师

  • 美国知名电商Wayfair高级商业分析专家

  • 拥有多年电商A/B测试实战经验,及新人教授经验

  • 精通Advanced SQL, Python等数据分析工具

  • 设计推出的A/B测试,为公司带来上千万美元的收入

Emma老师对学员知无不言,有问必答!无论是面试中遇到的问题,还是工作中遇到的困惑。

  • 整个Bootcamp历时8周,每周3小时课程,共计24小时课时。

  • 周末线上实时授课,课后完成老师布置的作业,助教团队在班级群内随时答疑,直播录像永久回放。

  • 五大课程模块:

    • A/B测试商业训练(案例、变量设计、测试计划)

    • A/B测试数据技能训练(数据源概况、SQL数据库建立、Python自动化分析)

    • A/B测试实验设计训练(A/B测试 vs 准实验、实验步骤、真实商业环境中的实验挑战)

    • A/B测试统计训练(统计分析、深度解析)

    • A/B测试面试训练

  • 课程内容涵盖了A/B测试在各大互联网科技公司中的完整工作流程:

    • A/B测试统计基础与应用场景

    • A/B测试实验设计

    • A/B测试假设检验、变量选择、流量计算与实验周期计算

    • A/B测试各类应用场景中的实验变体与前后测实战分析

    • 用SQL与Python完成A/B测试项目实战

    • A/B测试结果解读与高阶统计

    • 结果展示

  • 每位学员将有一套亲自做的A/B测试成果作品

  • 每位学员获得A/B测试面试真题解题辅导

  • 结课后,每位学员获得提升简历的Industry Project Experience完美描述,所有学员获得内推机会!

完整课程大纲:

上完Bootcamp,有哪些作品可以展示呢?

从数据库搭建、样本选取、实验组与测试组分配、变量选取、实验设计,到实验结果深度分析与PPT展示,学员的精致项目报告就是他们最好的训练营成果,这一份拿的出手的高品质项目,无论是LinkedIn还是面试展示,都会是脱颖而出的最佳帮手!

部分学员作品展示:

长按二维码,添加小助手为好友,回复“AB”,即可报名《A/B测试实战训练营》:

小助手(微信ID:yvonne91_wsn)

熟悉我们的老用户,应该知道我们一直都是实行阶梯价格、优惠递减的,这次也不例外:先到先得、越早报名越优惠(原价$1999美元)。以下价格单位为美元:

  • 第1名~第2名:999美元(优惠$1000)

  • 第3名~第6名:1099美元(优惠$900)

  • 第7名~第10名:1299美元(优惠$700)

  • 第11名~第14名:1399美元(优惠$600)

  • 第15名~第16名:1499美元(优惠$500)

  • 第17名~第18名:1699美元(优惠$300)

  • 第19名:1899美元(优惠$100)

  • 第20名:1999美元(原价)

你是否能在更好的公司做更优秀的自己?投资自己,全方位提升能力,为自己增添被验证有效的宝藏项目经历!赶快报名吧!