这两年,大模型改变了很多行业。
有人用它写代码、做龙虾,有人用它做客服、生成图片、视频和 PPT,有的用来办公处理 Excel,做数据分析。仔细看,热闹的都是 C 端,企业级这一端的金矿谁来开垦呢?B 端的应用和技术建设,很多都是硬骨头,广告系统就是其中之一。
大模型在 C 端的表现,用户整体来说还是挺宽容的,延迟、幻觉,都能理解,但是线上的工业级系统就是另一回事了——比如广告推荐系统——要面对极低时延、真实账单和真实收益,既要在几十毫秒内做出决策,又要兼顾平台收入、广告主转化和用户体验,这个场景,更像一座高速运转的工业车间。
所以,当快手的“广告系统已经全面迈向生成式推荐时代”时,我觉得这事值得记录一笔。
这套系统的名字叫做 GR4AD,是一套面向广告场景的生成式推荐系统,全称是 Generative Recommendation for ADvertising。更重要的是,这是国内生成式推荐技术在大规模广告场景下的首次全量落地。其中的核心变革是:广告推荐不再只是像传统系统那样,对一堆候选广告逐个打分、排序,而是和生成文本一样,直接生成更合适的推荐结果。
这是一个横跨表征、学习、服务三大层面协同设计的生成式广告推荐系统。最硬核的是,GR4AD 已经在快手广告平台全量部署,服务超过 4 亿用户,商业化广告收入提升 4.2%。
1
从近两年开始,广告推荐这个典型的工业级系统,开始发生底层范式迁移。
过去十年,工业界的推荐系统基本都建立在判别式模型之上。DLRM(深度学习推荐模型)这一类模型很强,也很稳定。它们像一群经验丰富的评委,面对一批候选广告,逐个打分、排序、筛选,然后把最优结果推到用户面前。从召回到排序,从特征交叉到序列建模,这套技术栈已经非常成熟。过去十年深度学习推荐模型几乎统治了整个工业界推荐系统。
但大模型时代带来了一种新思路。
既然文本可以被一个 token 一个 token 地生成,那么,推荐结果能不能也被“生成”出来?这就是生成式推荐的基本问题。它不再只是从既有候选里挑一个更像正确答案的项目,而是把推荐对象编码成可生成、可搜索的离散表示,然后在用户使用产品时产生的上下文里一步步计算出最有价值的候选广告。
听上去只是“打分”和“生成”的差别,背后其实是两种完全不同的思考方式。
判别式推荐像阅卷。题目摆在那里,系统负责判断哪一个更好。生成式推荐更像写作。它要先理解上下文,再一步步写出答案。前者擅长在既定集合里做精细比较,后者更适合在更大搜索空间里构造结果。放到广告场景里,这种变化尤其有意思,因为广告从来不只是一个内容推荐问题,它还是一个收益分配问题、一个实时决策问题、一个复杂约束下的多目标优化问题。
难点也正在于此。
第一道坎,是广告物料的 Token 化。广告不是普通短视频,一条视频广告背后同时包含视频创意、商品详情、广告主的元数据,以及转化类型、账户策略这类商业信号。后者往往没什么“语义”,但价值极高。
第二道坎,是业务目标。广告推荐不是去猜用户会不会点击,而是围绕 eCPM(每千次展示的有效收入)、NDCG(衡量排序准确度)这样的指标去优化收益。
第三道坎,是实时服务。广告推荐要在极高 QPS 和小于 100ms 的延迟下,通过 Beam Search 同时生成大量高质量候选,这跟大模型慢吞吞的一条条回答问题完全是两码事。
换句话说,广告推荐这件事,直接照搬 LLM 的训练和推理方法是不行的。
GR4AD 最重要的是做了一套“推荐原生”的生成式系统,方法论可以用一句话概括:“表征——学习——推理”三位一体的推荐原生设计。GR4AD 把广告系统的底层逻辑重新写了一遍。

这是一条从表征、学习到线上服务的完整工业链路,并非单点模型的优化。
2
先看最底层的表征,也就是广告怎么被机器理解的。
快手提出了一个概念叫 UA-SID,我们可以把它理解成“统一广告语义 ID”。这个名字有点技术范儿,逻辑并不复杂:用一个端到端微调过的多模态大模型(MLLM),把这些不同模态、不同来源的广告信息,映射到同一个语义空间里,变成一个统一的向量表示。再通过量化方法,把连续向量编码成离散的 Semantic ID 序列。
这个过程很像给每条广告发一个身份证。
传统的“身份证”更像一张模糊照片,大概知道“长得像谁”,但不方便做严格检索,也不适合直接生成。UA-SID 则更像一张数字身份证,不但记录了“长什么样”,还记录了“做什么的、归谁管、想要什么结果”。最重要的是,快手在量化阶段引入了 MGMR,也就是多粒度、多分辨率的量化策略,把转化类型、账户 ID 这类强业务信号一起编码进去。这样一来,同样一件商品,由不同广告主投放、目标不同、策略不同,在系统里就不会被误当成同一条广告。

量化我们可以简单的理解为压缩和编码,方便系统更高效地检索、生成和在线服务
这是一个非常关键的工业化细节。
在广告场景里,很多最值钱的信息根本不长在“内容语义”里。用户看见的画面是相似的,系统看见的业务价值可能完全不同。如果只靠内容做向量嵌入,最后容易把很多不同意图的广告压缩成同一类型。UA-SID 干的事情,就是把“内容”和“商业属性”同时装进同一套可生成语言里。
数据显示,在嵌入质量评估(photo-to-photo recall)中,经过指令微调和共现学习的 UAE 达到了 R@1=0.896,远超基线 QARM(0.541)和原始 Qwen3-VL-7B(0.769)。MGMR 量化将 SID 碰撞率从 85.44% 降至 18.26%,码本利用率提升 3 倍以上。
我让快手的同学翻译了一下这段话,意思就是:第一,系统更能理解广告。第二,不会把不同的广告认成同一个东西。
对广告推荐而言,这是生成式范式能不能站住的基础。
3
再往上一层,就是学习方式的变化。
传统推荐系统很擅长做单点预测,比如点击率、转化率。但广告系统真正关心的,从来都是“这一组广告放出去以后,整体收益是不是更高,用户体验好不好,广告主的钱花得值不值”。
快手在这一层做了两个设计:一个叫 VSL,价值感知的监督学习;另一个叫 RSPO,排序引导的强化学习。
VSL 的思路很好理解。它先把 eCPM(千次展示收入) 也变成可预测的 token,让模型不光预测广告的 SID,还同时预测其商业价值;再给不同样本加权重,高价值和深度交互的用户权重更高;同时引入了 MTP(多 Token 预测机制)来辅助减少损失,保证并行解码部分也能学习到足够有效的信息。

这相当于训练一个学生,以前要求他把题做对就行了;现在除了做对,还得知道哪道题的分值更高,哪种题型更值得优先攻克。模型不再只学“像不像正确答案”,开始弄清楚“什么样的答案更值钱”。
这还不够。因为监督学习终究还是在拟合历史的分布情况。历史告诉你过去什么是有效的,却不一定告诉你未来怎么排序更优。所以快手又往前走了一步,引入 RSPO(排序引导的强化学习),直接对列表级的 NDCG 排序目标做优化。
RSPO 从理论上给出了对排序指标的直接优化保证,同时又加上了参考模型可靠性门控,以及 VSL 与 RSPO 的统一在线训练机制,让模型能持续朝更优收益探索。

这几年大家谈强化学习,很多时候还是停留在大模型训练和推理优化这些语境里。快手这个案例给我的启发是,强化学习真正有产业爆发力的地方,应该是广告推荐、交易系统、调度系统这些“每一步决策都能折算成真实收益”的核心工业场景。
4
最后聊聊推理层,GR4AD 在这里做了两件实事:LazyAR 和 DBS。
LazyAR:一种只在必要位置做自回归解码的“懒惰解码”策略,用更少算力生成更多广告候选。
DBS:一种多样性束搜索策略,在 Beam Search 里强制不同束走不同“路”,避免生成一堆差不多的推荐结果。
LazyAR 这个设计的巧妙之处在于,它看清了“算力到底花在哪儿”。
在生成推荐结果的过程中,第一层 SID 最难预测,但这个阶段 Beam 宽度只有 1;等到后面几层,其实每一层的预测难度在降低,Beam 宽度却开始指数级变大。结果就是,系统最贵、最集中的那部分计算资源,反而砸在了相对简单的步骤上。
LazyAR 做的事情,是把对上一个 token 的依赖,刻意“往后挪一挪”。前几层不着急逐个计算,尽量并行着来,把一大批中间结果先算出来;等到了关键的中间层,再把上文信息注入进来,然后回到正常的自回归解码流程。这样一来,在推荐质量基本不变的前提下,推理的吞吐量直接翻了一倍。

这个设计更像安检通道。原来的方式,是每个人在每一道闸机前都单独过一次安检,人一多就得排长队。LazyAR 的做法,是把前面几道检查合并成一条快速通道,先批量放行,只在真正关键的关口再做一次严格检查,整体通行自然就快了很多。
DBS——也就是动态 Beam 服务——更像一个实时调度系统。它一方面用递增 Beam 宽度替代固定宽度,减少中间层的无效计算;另一方面根据实时 QPS 自适应调整 Beam,平时就多花一点算力换取更高推荐质量,高峰期则收缩 Beam,保障最小延迟和最大的吞吐量。
5
技术驱动商业,GR4AD 上线之后,快手商业化广告收入提升了 4.2% 以上,中小广告主投放量提升 17.5%,广告转化率提升 10.17%,低活用户转化率提升 7.28%。同时,基于 SID 的实时索引替代传统嵌入索引后,新物料可以秒级生效,新广告、新账号、新素材刚上线时,系统也能更快、更广泛地把它们推荐给合适的人;素材和投放策略的变化也能够更快反映到实际的推荐结果里。
广告主的投放更有效,用户看到的内容也更贴合需求,平台收入也会更多。这是个三赢的结果。同时拉动收入、转化和用户侧的效果,说明生成式推荐真正改进了广告和用户需求的匹配机制。
如果说过去几年,生成式 AI 更多证明了自己可以对话、做内容、做 Agent,那么 GR4AD 证明的是另一件事:生成式 AI 开始能够进入商业化核心系统,直接参与流量分配、商业决策和收益生成。它处理的是“生产层的结果”。
快手完成了从 DLRM 到 GR4AD 的范式迁移,意味着生成式 AI 已经变成底层工业系统的一部分。
在技术世界里,一直有热点出现,但也有很多变化是发生在不那么热闹的场景里。用户看不到模型怎么训练,也看不到广告排序引擎怎样在 100 毫秒内完成一次次决策,但这些系统的每一次进化,最后都会体现在商家回报、用户体验和平台收入上。
快手这次,给出了一个相当硬核的答案。