儿童白颠疯如何确诊 http://baidianfeng.39.net/a_wh/140916/4474592.html对于算法分发很多人会有所误解,这或许源自远观而缺乏了解,才会觉得算法猛如虎。而当你走近了算法分发,有了一定的了解之后,可能会有重新的认知:算法如虎,细嗅蔷薇。一、算法分发知多少?尽管算法分发中应用了各种高深的算法,但其基础原理却是朴素的:更好地了解待推荐的内容,更好地了解要推荐给的人,才能更高效的完成内容与人之间的对接。从这个角度来看:断物识人,是一切推荐行为的起点。对于断物识人,我们可以将它理解为打标签的过程。标签是对高维事物的降维理解,抽象出了事物更具有表意性、更为显著的特点。在不同的业务场景下,我们会选择不同的标签进行使用,来对内容和用户进行标注。在内容画像层面,以音乐为例,最典型的有两种标签产出的方式:专家系统:潘多拉(Pandora)的音乐基因工程(MusicGenomeProject)。在这项工程中,歌曲体系被抽离出个标签,细化到如主唱性别、电吉他失真程度、背景和声类型等等。每一首歌曲都会被经由工作人员耗时30分钟左右,有选择性标注一些标签,并以从0到5的分值代表这一标签的表征程度。UGC产出:在豆瓣,给音乐打标签的活则从专家产出,转为了普通网友贡献。群体的力量为豆瓣积累了大量具有语义表意性的标签。当然,由于用户的多样性和编辑的开放性,用户标签系统需要经过特定的清洗和归一化才能投入使用。在用户画像层面,可以分为静态和动态两部分。用户画像中静态的部分比较好理解,即你的设备信息、地理位置、注册信息等等,这些可以被理解为是业务无关的信息。具体到业务场景中,用户产生了更多的行为,就生成了业务相关的动态信息,即利用人的各种显式和隐式行为来对用户的偏好性进行的猜测。以知乎读书会为例,你的显式行为是点击、收听、评分、评论等等;隐形行为则是收听完成度、是否有拖拽快进、页面停留时长等等。通常,由于显式行为不够丰富,我们往往需要使用隐式行为来扩充我们对于用户的理解。完播率、是否快进、详情页停留时长等指标,都会被系统统计,用来判断你是否真的喜欢某个人的讲解、喜欢某本书的内容。在内容画像的部分,可以看到一篇文章通过文本分析进行了一级和二级分类,并抽取出文章内的关键字、实体词,进一步的还会通过聚类的方式,将这篇文章与其相似的内容聚成一个簇类。之所以会有聚类,是因为专家系统的分类体系一定是对于变化不敏感的,响应不及时的,而聚类能够挖掘出更多内容的隐含信息。在用户画像的部分:“今日头条常用的用户标签包括用户感兴趣的类别和主题、关键词、来源、基于兴趣的用户聚类、各种垂直兴趣特征、以及性别、年龄、地点等信息。性别信息通过用户第三方社交账号登录得到。年龄信息通常由模型预测,通过机型、阅读时间分布等预估。常驻地点来自用户授权访问位置信息,在位置信息的基础上通过传统聚类的方法拿到常驻点。常驻点结合其他信息,可以推测用户的工作地点、出差地点、旅游地点。这些用户标签非常有助于推荐。”(摘录自今日头条推荐算法原理全文详解——曹欢欢博士)内容画像和用户画像,是一个相互影响的循环系统。内容画像决定人的画像,自然是最容易理解的。在音乐场景下,你收听、收藏、评分了很多爵士类的音乐,那么系统就会判定为你是一个喜欢爵士音乐的用户。在读书的场景下,你阅读、收听了哪些书籍,哪些书籍听完了、哪些书籍重复收听了很多遍,都会影响系统中,你的用户画像。因此,“你的选择决定你的画像”可以说丝毫不为过。而反过来,人的画像也会影响内容的画像。我们可以看作是基于用户的行为,对内容做出的后验投票。在一个大体量的视频上传体系里,我们基本放弃了依赖人工打标签的方式,而转而利用用户的播放行为来试图猜测内容属于哪一类。一个典型的Case:死神来了。看标题的文本信息,最大概率就是一部电影,但事实上观看这个视频的大面积是喜欢猎奇类视频的用户,深挖内容才会知道,这其实是一个车祸视频集锦。二、协同过滤,应用群体智慧如前所述,标签是我们对事物的抽象理解,那有没有一种方式能够让我们放弃标签呢?以人的行为来标记内容,这就是协同过滤的基础思想。举一个生活中的场景:初次为人父母,“无证上岗”的新手爸妈们内心是激动而又惶恐的。打听,成了他们育儿的重要法宝之一。“你家宝宝用的是什么沐浴液啊、你们有没有上什么早教班啊…”亲子群中,无时无刻不在发生这样的讨论,这样的讨论也构成大家后续消费决策的主要因素之一。这种基于人和人之间的相互推荐固然是弱社交关系分发的一种形态,但是促成大家有价值信息交换和购买转化的,其实是人和人之间的相似点:为人父母、拥有相似的价值观和消费观。把用户的消费行为作为特征,以此进行用户相似性或物品相似性的计算,进行信息的匹配,这就是协同过滤(CollaborativeFiltering)的基础思想。协同推荐可以分为三个子类:基于物品(Item-based)的协同基于用户(User-based)的协同基于模型(Model-based)的协同1.基于用户的协同即切合了上面的例子,其基础思路分为两步:找到那些与你在某一方面口味相似的人群(比如你们都是新手爸妈,倾向于同一种教育理念),将这一人群喜欢的新东西推荐给你。2.基于物品的协同其推荐的基础思路是:先确定你喜欢物品,再找到与之相似的物品推荐给你。只是物品与物品间的相似度不是从内容属性的角度衡量的,而是从用户反馈的角度来衡量的。使用大规模人群的喜好进行内容的推荐,这就是在实际工程环境里,各家公司应用的主流分发方式。3.基于模型的协同是应用用户的喜好信息来训练算法模型,实时预测用户可能的点击率。比如,在Netflix的系统中就将受限玻尔兹曼机(RestrictedBoltzmannMachines,RBM)神经网络应用于协同过滤。将深度学习应用于基于模型的协同,也成为了业界广泛使用的方式。以协同的方式,通过用户行为的聚类发现许多隐层的连接。以读书会的场景为例,我们邀请不同的名家来领读书籍。从领读人的角度,更容易直观的将同一领读人的作品视作一个聚类,比如马家辉老师领读的《对照记》、《老人与海》两本书,通过人工预判的前置规则,我们很容易将这两本领读书音频推荐给同一类用户。但是,通过协同的方式,我们会发现喜欢马家辉老师领读作品的用户,同时也会喜欢杨照老师领读的《刺杀骑士团长》一书。这种联系,是很难通过标签信息发现的,只有通过用户的行为选择,才会建立联系,提升内容和用户之间连接与匹配的效率。三、从冷到热:内容和用户在分发中的生命周期作为连接内容与人的推荐系统,无时无刻不在面对着增量的问题:增量的用户,增量的内容。新的用户、新的内容对于推荐系统来说都是没有过往信息量积累的、是陌生的,需要累积一定的曝光量和互动量(阅读、分享等)来收集基础数据。这个从0到1积累基础数据的过程就是冷启动,其效果的好坏直接关系到用户端、作者端的满意度和留存率。如果我们假设一篇新内容要经过次阅读才能够得到相对可信的内容画像,新用户同样需要完成次阅读之后才能够建立起可用的用户画像。那么一个最直观的问题就是:怎么样达成这次有效的阅读?这就是冷启动面临的问题。下面我们从内容和用户两个维度来分别论述。在推荐系统中,通过分析一篇内容的标题、关键字来确定要向哪个目标人群进行探索性展示,借由探索性展示完成了从0到1的用户反馈积累过程。在这个冷启动过程中,如果没能得到足够正面的用户反馈(点击行为和阅读体验),系统就会认为这篇内容是不受欢迎的,为了控制负面影响,就会逐步降低这篇内容的推荐量。反之,如果内容在冷启动过程中顺利找到了自己的目标人群,收获了很高的点击率,就有可能被推荐系统快速放大,具有了成为爆款的可能。因此,冷启动决定一篇内容命运的说法,可以说丝毫不为过。而对于用户冷启动,推荐服务的是一个大目标:用户的留存率。只有保证了用户留存的前提下,才会考量推荐的兴趣探索效果如何,是否在有限的展示里全面探索出了用户的偏好。对于慢热型的用户,我们并不急于获悉他的方方面面,而是以“留住用户”作为第一目的。时下,最火热的莫过于快手、抖音类的PUGC视频应用了。那么,这些短视频内容的推荐方式是什么样的呢?回归到丰富先验信息、依赖后验信息的角度来阐述整个通用的流程。一个短视频应用里面,大体上会有三类人:半职业或职业的生产者、工具的使用者、短视频的消费者。从消费性的角度来看,大概率是第一类人生产,第三类人消费。先验信息就是尽可能挖掘出第一类人生产内容的固有特征,比如作者是谁、配的音乐是什么、是否有参与活动话题等等,对于足够的头部生产者还可能会以运营介入的方式人工标注,去完善先验信息。客观上说,小视频的先验信息是远小于文本内容的。从信息量的角度来看,我们将其类比微博类的短文本内容或者全图片内容可能会更合适。先验信息的缺乏,就会更依赖协同算法支撑下,用户参与行为的后验信息的补充。将一则小视频冷启动推荐给特定类别的用户来查看,从用户角度去统计不同特征、不同聚类用户的有效播放,从而以用户的行为去刻画小视频的特征。比如,时下很热的海草舞,不同的生产者都会上传类似主题的视频,哪个更好?在业务场景里,真正值得依赖的一定是普通用户观看行为的投票,才能选择出更值得扩散内容,优化全局的效率。四、三分天下?编辑、算法与社交不夸张的说,算法分发将是未来信息分发行业的标准配置。为什么这么说?因为算法是个筐,什么都能往里装。在内容展现和推荐的过程当中,可以参考下述公式:算法分发权重=编辑分发权重+社交分发权重+各种算法产出权重将任意一个权重设置为1,其他部分设置为0,算法分发系统就会变成一个标准的编辑分发系统或者是社交分发系统。也就是说,算法分发的基线就是编辑分发或社交分发。从这个角度来看,只要算法应用的不太差,基本上引入算法分发一定是正向。因为它在有限的货架里,围绕用户展示了无限的货品。在业务层面,我们通常会复合型使用三种分发,在不同的环节应用不同的因素,才达到最好的效果。以知乎读书会为例,我们将其划分为:内容生产、用户触达和反馈改进三个部分。在内容生产中,为了保证调性,一定是需要引入编辑专家去选人、选书的。选择的书是否有价值,选择的人是否是行业专家而非职业的拆书人,都是体现产品价值观判断的事情。进入触达环节,人工干预的作用就会相对弱化。举一个例子:运营一定会有今日推荐的需求,推荐给用户今日读书会上新了什么大咖领读的书籍。比如,一本物理学的书籍,由一位物理学大咖进行解读。从编辑的角度,领读人是大咖,书是经典,编辑权重一定非常高。这听上去似乎很合理,但当你进入用户的场景时,就发现有点差异:首先,用户不是每天都来的。如果他一周来一次,在他没来的这一周内同样有文学、互联网、艺术等专业人士的领读,你该给他的是今日推荐,还是本周推荐呢?进一步考虑到用户偏好问题。你是应该把物理学大咖的内容强加给他,还是推荐给他一个朋友们最近都好评的一本领读书(社交分发),又或者是他自己已经标注了“想读”的一本艺术类书籍的解读呢?当我们收集到了足够多用户数据的时候,又可以反过来影响内容的二次迭代,编辑的作用又凸显了出来,结合数据的反馈来对内容进行调整:内容的播放完成率为什么低?是稿件问题,还是领读人语音的问题,是否需要重新录制等等。五、算法的价值观算法有没有价值观呢?算法没有价值观,算法背后的人却是有价值观的。因为我们优化推荐系统,一定会有一个数值目标,这个数值目标的合理性决定了整个推荐系统的合理性。单独以点击为优化目标,一定会导致标题党泛滥;点击加时长目标能够一定程度抑制标题党的产生,但是也有可能导致用户多样性的丧失。在这里举两个内容消费的场景,我们可以通过这两个场景一窥各个内容分发产品的调性所在。1.新用户冷启动:大家可以以新用户的身份去尝试各种内容消费服务。比较之下,你就知道各家的价值观怎样的了。因为新用户是通过不同渠道获取的,你获取到的是怎样的用户,你就会推荐怎样的内容;进一步的,基于马斯洛需求模型,越底层的内容越有更广泛的受众。这就是为什么很多小视频应用,打开来之后,全都是白衣校花大长腿的原因了,人性尔。2.推荐多样性:多样性是另一个评估分发产品调性好坏的所在。丧失多样性,深挖用户的局部兴趣点,一定是短期收益最大化的。比如我喜欢看科比,那么你把科比的比赛视频推给我,可以让我刷到深夜两点;但是从一个产品的长线来看,我们需要更长久的留住用户,而不是短期让用户沉迷。在短期时长和长期留存中,就依赖于产品设计者的价值观判断了。六、不同平台下的自媒体生态对于平台来说,创作者是什么?如果把平台比作一个商场的话,不同的平台会有不同的选择,最典型的两种类型莫过于:自营V.S第三方运营。一种情况下,整个商场全部是直营的店铺。在这样的平台下,每个货架都是商场自营,所有的创作者对于商场而言,都只是供货商。另一种情况下,商场只提供位置,所有交得起入场费的店铺都可以入驻。在这样的平台下,每个货架都是创作者自己运营的。直营商场的好处当然是体验可控、甚至于能够在某个特定垂类人群身上做到近乎可量化范围内的极致。由于其收取的是商品流通中的利润,所以在短期内可以攫取巨大的红利,并用这些利润去给商场自身打广告,做新客获取。但这样做的坏处也很显然:就在于供货商的角度缺乏灵动性,只作为供货商的创作者,由于缺乏足够的利润激励,很难生长出全新的品牌。开放给第三方运营的商场,其好处当然是供货商的灵活性和多样性,商场赚取的是房租而非商品流通过程的利润。一个常见的问题是:这种完全开放给第三方运营的商场是否会用户体验崩塌,比如会有各种在商场入口发小广告的,以各种图谋短线的方式来吸收商场的流量。这就是局部失控与全局可控的关系。在国内,全部直营的商场比比皆是;近乎完全开放给第三方运营的大商场,则恐怕只有
转载请注明:
http://www.aideyishus.com/lkcf/5875.html