2026-05-19 日报
主题: 生成式推荐多维突破:冷启动、长尾去偏与可变长 SID
标签: semantic-id · rl · industrial · cold-start · quantization
📊 统计: 共 12 篇 · 精读 6 · 🏢 工业界 3 · 🎓 学术 9 · discriminative-rec 2 · generative-rec 6 · llm 3 · other 1
综述
本日共 12 篇论文,其中 6 篇精读、6 篇浅读;类别分布以生成式推荐为主(6 篇),判别式推荐 2 篇、LLM 3 篇、其他 1 篇,工业(Alibaba/Kuaishou/Huawei)与学术机构并举。重点工作中,阿里 Taobao 的 GrowthGR 首次把可持续新品增长拆为 ItemLTV 反事实 uplift 与 MultiGR/MoPO 多价值 GRPO 变体,线上 2 个月获得新品 GMV +5.39%;华东师大 VarLenRec 揭示了""流行度-长度悖论"",以 PIBA 闭式定理与双曲自适应残差量化把碰撞率从 12.7% 降至 3.2%;UVA 的 SAPO 把 reasoning-based 推荐的 RL 信用分配下沉到 reasoning step 粒度,稳住稀疏 exact-match RL;港理工的 Ghost 用 Skeleton-Founded Tokenization 与非对称 unlikelihood 治理 tail token 梯度饥饿,Tail HR +63.91%;快手 DADF 则以 Box-Cox 分布感知残差去偏在 7 个 backbone 上稳定提升观看时长。整体来看,今日趋势聚焦于 Semantic ID 的可变长与流行度治理、RL 在生成式推荐中的稳态化,以及工业级冷启动与长期价值优化的对齐。
重点论文
GrowthGR · ⭐ 9/10
Towards Sustainable Growth: A Multi-Value-Aware Retrieval Framework for E-Commerce Search
🏢 Alibaba · 生成式推荐
GrowthGR 把新品冷启拆成 ItemLTV(counterfactual uplift 估计)+ MultiGR/MoPO(多价值 GRPO 变体 + CIW 抵消 popularity bias)的两阶段框架,在 Taobao 主搜索上线 2 月获得新品 GMV +5.39%、整体 GMV +0.31%、TI@30 +20.0% 的工业级长期增长收益。
VarLenRec · ⭐ 8/10
Learning Variable-Length Tokenization for Generative Recommendation
🎓 学术 · 生成式推荐
VarLenRec 首次实证发现生成式推荐中的 Popularity-Length Paradox(热门 item 适合短 SID、长尾 item 需要长 SID),提出 PIBA 闭式定理 L*∝p^(-α/γ)、Hyperbolic Adaptive Residual Quantization、可微 Soft Length Controller 与下游碰撞/length-bias/hallucination 三件套,在 Amazon Beauty/Sports/Toys/Yelp 上一致超越 TIGER/LC-Rec/LETTER/ETEGRec,碰撞率从 12.7% 降至 3.2%,且训练/推理更快。
SAPO · ⭐ 8/10
SAPO: Step-Aligned Policy Optimization for Reasoning-Based Generative Recommendation
🎓 学术 · 生成式推荐
SAPO 把 reasoning-based 生成式推荐的 RL credit-assignment 单元从 rollout 下沉到「thinking block + 配对 SID token」这一 reasoning step,配套 per-step verifiable match reward、per-step group-relative advantage 与 step-normalized token aggregation,在三个 Amazon 类目上稳住稀疏 exact-match RL 训练并一致领先 NDCG。
Ghost · ⭐ 8/10
Echoes in Filter Bubble: Diagnosing and Curing Popularity Bias in Generative Recommenders
🎓 学术 · 生成式推荐
Ghost 把生成式推荐流行度偏差归因于 MLE 下 tail token 的梯度饥饿与未差异化 tokenization 导致的多步几何 bias 放大,分别用 Skeleton-Founded Tokenization (head 训骨架、tail 继承前缀+加 tail-specific token) 和 Asymmetric Unlikelihood Optimization (对高文本相似度但 SID 分叉的 head 干扰集施加非对称 unlikelihood 损失) 治理,在 3 个 Amazon 数据集上 Tail HR/NDCG +63.91%/+70.66%、MGU -55.76%、CNS +16.81%。
DADF · ⭐ 8/10
DADF: A Distribution-Aware Debiasing Framework for Watch-Time Regression in Recommender Systems
🏢 Kuaishou · 判别式推荐
DADF 是 Kuaishou 提出的二阶 watch-time 残差去偏框架,通过 group-specific Box–Cox 变换稳定长尾乘性校正因子、按 duration 分专家建模异质残差、并复用首阶段 engagement 头的 logits/tower 表征作为推理时信号,在 7 个 backbone 上一致提升 MAE/XAUC 并在 Kwai 线上获得 +0.347% 人均时长。
全部论文
| 模型 | 标题 | 类别 | 公司 | 摘要分 | 精读分 |
|---|---|---|---|---|---|
| GrowthGR | Towards Sustainable Growth: A Multi-Value-Aware Retrieval Framework for E-Commerce Search | 生成式 | 🏢 Alibaba | 9 | 9 |
| VarLenRec | Learning Variable-Length Tokenization for Generative Recommendation | 生成式 | 🎓 学术 | 8 | 8 |
| SAPO | SAPO: Step-Aligned Policy Optimization for Reasoning-Based Generative Recommendation | 生成式 | 🎓 学术 | 8 | 8 |
| Ghost | Echoes in Filter Bubble: Diagnosing and Curing Popularity Bias in Generative Recommenders | 生成式 | 🎓 学术 | 7 | 8 |
| DADF | DADF: A Distribution-Aware Debiasing Framework for Watch-Time Regression in Recommender Systems | 判别式 | 🏢 Kuaishou | 8 | 8 |
| RAGR | RAGR: Review-Augmented Generative Recommendation | 生成式 | 🏢 Huawei | 7 | 8 |
| — | Coordinate Heterogeneity Governs Binary Quantization: From InfoNCE to Recall | LLM | 🎓 学术 | 7 | — |
| — | Uncertainty-Calibrated Recommendations for Low-Active Users | 判别式 | 🎓 学术 | 7 | — |
| DualFashion | Dual-Diffusional Generative Fashion Recommendation | 生成式 | 🎓 学术 | 6 | — |
| — | Active Budget Allocation for Efficient Scaling Law Estimation via Surrogate-Guided Pruning | LLM | 🎓 学术 | 6 | — |
| TierCheck | TierCheck: Tiered Checkpointing for Fault Tolerance in Large Language Model Training | LLM | 🎓 学术 | 5 | — |
| — | How Do Electrocardiogram Models Scale? | 其他 | 🎓 学术 | 5 | — |