[CIKM'24] TWIN V2: Scaling Ultra-Long User Behavior Sequence Modeling 论文精读
长期兴趣建模对大规模推荐的 CTR 预估越来越重要. SIM、TWIN 等用两级方法 (GSU 检索 + ESU 精算) 解决效率问题. 但用户行为序列横跨整个生命周期, 规模可达, 目前没有有效方案能完整建模如此庞大的兴趣.
长期兴趣建模对大规模推荐的 CTR 预估越来越重要. SIM、TWIN 等用两级方法 (GSU 检索 + ESU 精算) 解决效率问题. 但用户行为序列横跨整个生命周期, 规模可达106, 目前没有有效方案能完整建模如此庞大的兴趣.
终身用户行为建模中, SIM、UBR4CTR 等两级级联框架达到 SOTA: 用简单快速的 GSU 从海量行为中检索与目标最相关的少量行为, 再用注意力 ESU 在这些 finalist 上做 Target Attention (TA). 但它们有个根本局限: GSU 与 ESU 的目标-行为相关性度量不一致, 导致 GSU 经常漏掉 ESU 高度认可的行为, 限制了整体 CTR 精度.
CTR 预估需要捕捉用户行为背后的潜在兴趣; 而且由于外部环境和内部认知的变化, 用户兴趣会随时间动态演化. 现有兴趣建模方法大多把行为表示直接当作兴趣, 缺少对具体行为背后潜在兴趣的专门建模, 也很少考虑兴趣的变化趋势.
丰富的用户行为数据对 CTR 预估极有价值, 尤其在推荐和广告等工业场景. 阿里此前的 SOTA 是基于记忆网络的 MIMN, 它通过 “学习算法 + 服务系统” 协同设计, 第一次把可建模的行为序列长度扩展到 1000. 但当序列再长 10 倍以上时, MIMN 无法在给定候选 item 时精准刻画用户兴趣 —— 把所有历史行为编码进固定大小的 memory matrix 会引入大量噪声.
CTR 预估的深度模型大多遵循 Embedding & MLP 范式: 大规模稀疏特征先映射成低维 embedding,再 group-wise 地变换成固定长度向量,最后拼接喂入 MLP。这种方式把一个用户的多样兴趣压成同一个定长向量,成为瓶颈。
本文介绍了 JAX:一个面向领域的 tracing JIT 编译器,能够从纯 Python 和 NumPy 编写的机器学习程序生成高性能的加速器代码。JAX 借助 XLA 编译基础设施为"最适合加速"的子程序生成优化代码,这些优化后的子程序可以被任意 Python 代码调用和编排。由于 JAX 与 Autograd 完全兼容,它支持对 Python 函数进行任意阶的前向和反向自动微分。由于 JAX 支持结构化控制流,它能够为复杂机器学习算法生成高性能代码。将 JAX 与 Autograd 和 NumPy 结合,可以得到一个既易于编程、又高度高性能的 ML 系统,能够同时面向 CPU、GPU 和 TPU,并可扩展到多核 Cloud TPU。
作者来自 Google Research、Google DeepMind 和 NYU。
内存键值存储 (KVS) 被广泛用于缓存热点数据, 以解决基于磁盘的存储系统或分布式系统中的热点问题. 然而, 内存 KVS 内部的热点问题却一直被忽视. 随着近年来热点问题愈发严重, 现有 KVS 由于缺乏热点感知能力, 在高度偏斜的工作负载上往往表现不佳, 且可靠性不足.
推荐系统对用户体验和公司营收至关重要, 而生成式推荐模型近期被证明能够产生高质量的推荐结果. 然而, 现有系统在工业场景中训练生成式推荐模型时, 普遍面临功能支持不足与实现效率低下的限制. 为此, 我们推出了 MTGRBoost – 一个高效且可扩展的生成式推荐模型训练系统.
个性化推荐的发展显著提高了信息匹配的准确性和电子商务平台的收入. 近期 (2022 年), 该领域呈现出两大趋势: