tantan的博客

[CIKM'24] TWIN V2: Scaling Ultra-Long User Behavior Sequence Modeling 论文精读

发表于 2026-06-16 分类于 recommender-system 本文字数： 2.4k 阅读时长 ≈ 9 分钟

长期兴趣建模对大规模推荐的 CTR 预估越来越重要. SIM、TWIN 等用两级方法 (GSU 检索 + ESU 精算) 解决效率问题. 但用户行为序列横跨整个生命周期, 规模可达 $10^6$ , 目前没有有效方案能完整建模如此庞大的兴趣.

[KDD'23] TWIN: TWo-stage Interest Network 论文精读

发表于 2026-06-16 分类于 recommender-system 本文字数： 2.8k 阅读时长 ≈ 10 分钟

终身用户行为建模中, SIM、UBR4CTR 等两级级联框架达到 SOTA: 用简单快速的 GSU 从海量行为中检索与目标最相关的少量行为, 再用注意力 ESU 在这些 finalist 上做 Target Attention (TA). 但它们有个根本局限: GSU 与 ESU 的目标-行为相关性度量不一致, 导致 GSU 经常漏掉 ESU 高度认可的行为, 限制了整体 CTR 精度.

[AAAI'19] DIEN: Deep Interest Evolution Network for Click-Through Rate Prediction 论文精读

发表于 2026-06-16 分类于 recommender-system 本文字数： 2.6k 阅读时长 ≈ 9 分钟

CTR 预估需要捕捉用户行为背后的潜在兴趣; 而且由于外部环境和内部认知的变化, 用户兴趣会随时间动态演化. 现有兴趣建模方法大多把行为表示直接当作兴趣, 缺少对具体行为背后潜在兴趣的专门建模, 也很少考虑兴趣的变化趋势.

[CIKM'20] SIM: Search-based User Interest Modeling with Lifelong Sequential Behavior Data 论文精读

发表于 2026-06-16 分类于 recommender-system 本文字数： 3.4k 阅读时长 ≈ 12 分钟

丰富的用户行为数据对 CTR 预估极有价值, 尤其在推荐和广告等工业场景. 阿里此前的 SOTA 是基于记忆网络的 MIMN, 它通过 “学习算法 + 服务系统” 协同设计, 第一次把可建模的行为序列长度扩展到 1000. 但当序列再长 10 倍以上时, MIMN 无法在给定候选 item 时精准刻画用户兴趣 —— 把所有历史行为编码进固定大小的 memory matrix 会引入大量噪声.

[KDD'18] DIN: Deep Interest Network for Click-Through Rate Prediction 论文精读

发表于 2026-06-16 分类于 recommender-system 本文字数： 4.6k 阅读时长 ≈ 17 分钟

CTR 预估的深度模型大多遵循 Embedding & MLP 范式: 大规模稀疏特征先映射成低维 embedding，再 group-wise 地变换成固定长度向量，最后拼接喂入 MLP。这种方式把一个用户的多样兴趣压成同一个定长向量，成为瓶颈。

[SysML'18] Compiling Machine Learning Programs via High-Level Tracing (JAX) 论文阅读

发表于 2026-04-19 分类于 mlsys 本文字数： 2.4k 阅读时长 ≈ 9 分钟

本文介绍了 JAX：一个面向领域的 tracing JIT 编译器，能够从纯 Python 和 NumPy 编写的机器学习程序生成高性能的加速器代码。JAX 借助 XLA 编译基础设施为"最适合加速"的子程序生成优化代码，这些优化后的子程序可以被任意 Python 代码调用和编排。由于 JAX 与 Autograd 完全兼容，它支持对 Python 函数进行任意阶的前向和反向自动微分。由于 JAX 支持结构化控制流，它能够为复杂机器学习算法生成高性能代码。将 JAX 与 Autograd 和 NumPy 结合，可以得到一个既易于编程、又高度高性能的 ML 系统，能够同时面向 CPU、GPU 和 TPU，并可扩展到多核 Cloud TPU。

tantan的博客

[CIKM'24] TWIN V2: Scaling Ultra-Long User Behavior Sequence Modeling 论文精读

[KDD'23] TWIN: TWo-stage Interest Network 论文精读

[AAAI'19] DIEN: Deep Interest Evolution Network for Click-Through Rate Prediction 论文精读

[CIKM'20] SIM: Search-based User Interest Modeling with Lifelong Sequential Behavior Data 论文精读

[KDD'18] DIN: Deep Interest Network for Click-Through Rate Prediction 论文精读

[SysML'18] Compiling Machine Learning Programs via High-Level Tracing (JAX) 论文阅读

[arXiv'25] TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate 论文阅读

[FAST'20] HotRing: A Hotspot-Aware In-Memory Key-Value Store 论文阅读

[arXiv'25] MTGRBoost: Boosting Large-scale Generative Recommendation Models in Meituan 论文阅读

[ICDE'22] PICASSO: Unleashing the Potential of GPU-centric Training for Wide-and-deep Recommender Systems 论文阅读