2026-05-19 日报

主题: 生成式推荐多维突破：冷启动、长尾去偏与可变长 SID

标签: semantic-id · rl · industrial · cold-start · quantization

📊 统计: 共 12 篇 · 精读 6 · 🏢 工业界 3 · 🎓 学术 9 · discriminative-rec 2 · generative-rec 6 · llm 3 · other 1

综述

本日共 12 篇论文，其中 6 篇精读、6 篇浅读；类别分布以生成式推荐为主（6 篇），判别式推荐 2 篇、LLM 3 篇、其他 1 篇，工业（Alibaba/Kuaishou/Huawei）与学术机构并举。重点工作中，阿里 Taobao 的 GrowthGR 首次把可持续新品增长拆为 ItemLTV 反事实 uplift 与 MultiGR/MoPO 多价值 GRPO 变体，线上 2 个月获得新品 GMV +5.39%；华东师大 VarLenRec 揭示了""流行度-长度悖论""，以 PIBA 闭式定理与双曲自适应残差量化把碰撞率从 12.7% 降至 3.2%；UVA 的 SAPO 把 reasoning-based 推荐的 RL 信用分配下沉到 reasoning step 粒度，稳住稀疏 exact-match RL；港理工的 Ghost 用 Skeleton-Founded Tokenization 与非对称 unlikelihood 治理 tail token 梯度饥饿，Tail HR +63.91%；快手 DADF 则以 Box-Cox 分布感知残差去偏在 7 个 backbone 上稳定提升观看时长。整体来看，今日趋势聚焦于 Semantic ID 的可变长与流行度治理、RL 在生成式推荐中的稳态化，以及工业级冷启动与长期价值优化的对齐。

重点论文

GrowthGR · ⭐ 9/10

Towards Sustainable Growth: A Multi-Value-Aware Retrieval Framework for E-Commerce Search

🏢 Alibaba · 生成式推荐

GrowthGR 把新品冷启拆成 ItemLTV（counterfactual uplift 估计）+ MultiGR/MoPO（多价值 GRPO 变体 + CIW 抵消 popularity bias）的两阶段框架，在 Taobao 主搜索上线 2 月获得新品 GMV +5.39%、整体 GMV +0.31%、TI@30 +20.0% 的工业级长期增长收益。

VarLenRec · ⭐ 8/10

Learning Variable-Length Tokenization for Generative Recommendation

🎓 学术 · 生成式推荐

VarLenRec 首次实证发现生成式推荐中的 Popularity-Length Paradox（热门 item 适合短 SID、长尾 item 需要长 SID），提出 PIBA 闭式定理 L*∝p^(-α/γ)、Hyperbolic Adaptive Residual Quantization、可微 Soft Length Controller 与下游碰撞/length-bias/hallucination 三件套，在 Amazon Beauty/Sports/Toys/Yelp 上一致超越 TIGER/LC-Rec/LETTER/ETEGRec，碰撞率从 12.7% 降至 3.2%，且训练/推理更快。

SAPO · ⭐ 8/10

SAPO: Step-Aligned Policy Optimization for Reasoning-Based Generative Recommendation

🎓 学术 · 生成式推荐

SAPO 把 reasoning-based 生成式推荐的 RL credit-assignment 单元从 rollout 下沉到「thinking block + 配对 SID token」这一 reasoning step，配套 per-step verifiable match reward、per-step group-relative advantage 与 step-normalized token aggregation，在三个 Amazon 类目上稳住稀疏 exact-match RL 训练并一致领先 NDCG。

Ghost · ⭐ 8/10

Echoes in Filter Bubble: Diagnosing and Curing Popularity Bias in Generative Recommenders

🎓 学术 · 生成式推荐

Ghost 把生成式推荐流行度偏差归因于 MLE 下 tail token 的梯度饥饿与未差异化 tokenization 导致的多步几何 bias 放大，分别用 Skeleton-Founded Tokenization (head 训骨架、tail 继承前缀+加 tail-specific token) 和 Asymmetric Unlikelihood Optimization (对高文本相似度但 SID 分叉的 head 干扰集施加非对称 unlikelihood 损失) 治理，在 3 个 Amazon 数据集上 Tail HR/NDCG +63.91%/+70.66%、MGU -55.76%、CNS +16.81%。

DADF · ⭐ 8/10

DADF: A Distribution-Aware Debiasing Framework for Watch-Time Regression in Recommender Systems

🏢 Kuaishou · 判别式推荐

DADF 是 Kuaishou 提出的二阶 watch-time 残差去偏框架，通过 group-specific Box–Cox 变换稳定长尾乘性校正因子、按 duration 分专家建模异质残差、并复用首阶段 engagement 头的 logits/tower 表征作为推理时信号，在 7 个 backbone 上一致提升 MAE/XAUC 并在 Kwai 线上获得 +0.347% 人均时长。

全部论文

模型	标题	类别	公司	摘要分	精读分
GrowthGR	Towards Sustainable Growth: A Multi-Value-Aware Retrieval Framework for E-Commerce Search	生成式	🏢 Alibaba	9	9
VarLenRec	Learning Variable-Length Tokenization for Generative Recommendation	生成式	🎓 学术	8	8
SAPO	SAPO: Step-Aligned Policy Optimization for Reasoning-Based Generative Recommendation	生成式	🎓 学术	8	8
Ghost	Echoes in Filter Bubble: Diagnosing and Curing Popularity Bias in Generative Recommenders	生成式	🎓 学术	7	8
DADF	DADF: A Distribution-Aware Debiasing Framework for Watch-Time Regression in Recommender Systems	判别式	🏢 Kuaishou	8	8
RAGR	RAGR: Review-Augmented Generative Recommendation	生成式	🏢 Huawei	7	8
—	Coordinate Heterogeneity Governs Binary Quantization: From InfoNCE to Recall	LLM	🎓 学术	7	—
—	Uncertainty-Calibrated Recommendations for Low-Active Users	判别式	🎓 学术	7	—
DualFashion	Dual-Diffusional Generative Fashion Recommendation	生成式	🎓 学术	6	—
—	Active Budget Allocation for Efficient Scaling Law Estimation via Surrogate-Guided Pruning	LLM	🎓 学术	6	—
TierCheck	TierCheck: Tiered Checkpointing for Fault Tolerance in Large Language Model Training	LLM	🎓 学术	5	—
—	How Do Electrocardiogram Models Scale?	其他	🎓 学术	5	—