2026-05-15 日报

主题: Semantic ID 驱动的生成式推荐工业化与排序-召回统一

标签: semantic-id · quantization · industrial · search-ranking · rl

📊 统计: 共 6 篇 · 精读 3 · 🏢 工业界 3 · 🎓 学术 3 · generative-rec 3 · discriminative-rec 1 · llm 2 · other 1

综述

本日共收录 6 篇论文，其中生成式推荐 3 篇、判别式排序 1 篇、LLM 推荐 2 篇、其他 1 篇，工业界出品占据全部 3 篇精读重点。美团 DIG 把 RQ tokenizer 嵌入 DIN+DCNv2+MoE 判别式排序器内部，用 BCE loss 端到端驱动 SID codebook 构造，配合特征分配 taxonomy 与 MLP_u2t 蒸馏让同一模型既排序又通过 beam search 检索，相对 SOTA 取得 +52%~+220% R@10 增益；腾讯 AsymRec 指出对称 SID 导致输入端 popularity-bias 与输出端 dimensional-collapse 的双瓶颈，提出非对称连续-离散框架（MSP 投影 + MHQ 多面正交残差量化），Amazon 四子集 NDCG@10 平均 +15.8%、广告 pCVR A/B +1.9% GMV；阿里 CQ-SID 把生成式检索定位为多级漏斗的召回补充，用类目约束簇式 SID + 4 阶段渐进 SFT + 注入 ground-truth 的 EG-GRPO 缓解稀疏奖励坍塌，hitrate +26.76% 同时 beam size -53.85%，单链路贡献全平台 72.63% 购买。学术侧 MARS 探索分层 belief-state 记忆推荐、Length-Regularized Self-Distillation 治理 listwise reranker 过度思考、OPE logging policy 设计提供候选选择理论。整体趋势聚焦于 SID 量化范式工业化，并通过判别-生成统一、非对称表示、RL 微调三条路线提升落地效率。

重点论文

DIG · ⭐ 8/10

Discrimination Is Generation: Unifying Ranking and Retrieval from a Tokenizer Perspective

🏢 Meituan · 生成式推荐 / 判别式推荐

DIG 把 RQ tokenizer 嵌入 DIN+DCNv2+MoE 判别式排序器内部，用 BCE ranking loss 端到端驱动 SID codebook 构造，通过 feature assignment taxonomy + MLP_u2t 蒸馏让同一模型既做排序又通过 beam search 做生成式检索，相对 SOTA SID baseline 在 5 数据集上取得 +52%~+220% R@10 gain 且同步改进排序 AUC。

AsymRec · ⭐ 8/10

Asymmetric Generative Recommendation via Multi-Expert Projection and Multi-Faceted Hierarchical Quantization

🏢 Tencent · 生成式推荐

AsymRec 识别 GenRec 中对称 SID 表示导致的输入端 popularity-bias / 输出端 dimensional-collapse 双瓶颈，提出非对称连续-离散框架：MSP 用 MoE 投影直接消化连续 embedding 作为输入，MHQ 在 M 个正交子空间内做 EMA 残差量化提供高保真离散监督，在 4 个 Amazon 子集 NDCG@10 平均 +15.8%、广告 pCVR 在线 A/B +1.9% GMV。

CQ-SID · ⭐ 8/10

Efficient Generative Retrieval for E-commerce Search with Semantic Cluster IDs and Expert-Guided RL

🏢 Alibaba · 生成式推荐

阿里 TmallAPP 把生成式检索定位为多级漏斗的召回补充而非端到端替代，提出 CQ-SID（类目约束 + Query-Item 对比的语义簇 SID）+ 4 阶段渐进 SFT + EG-GRPO（向 GRPO group 注入 K 条 ground-truth SID 缓解稀疏奖励坍塌），离线 hitrate 相对 RQ-VAE +26.76%、beam size -53.85%、线上 GMV +1.15%，单链路贡献全平台 72.63% 购买。

全部论文

模型	标题	类别	公司	摘要分	精读分
DIG	Discrimination Is Generation: Unifying Ranking and Retrieval from a Tokenizer Perspective	生成式 / 判别式	🏢 Meituan	8	8
AsymRec	Asymmetric Generative Recommendation via Multi-Expert Projection and Multi-Faceted Hierarchical Quantization	生成式	🏢 Tencent	7	8
CQ-SID	Efficient Generative Retrieval for E-commerce Search with Semantic Cluster IDs and Expert-Guided RL	生成式	🏢 Alibaba	0	8
MARS	Agentic Recommender System with Hierarchical Belief-State Memory	LLM	🎓 学术	6	—
—	Stop Overthinking: Unlocking Efficient Listwise Reranking with Minimal Reasoning	LLM	🎓 学术	6	—
—	Logging Policy Design for Off-Policy Evaluation	其他	🎓 学术	4	—