2026-05-13 日报
主题: 生成式推荐多路径演进与工业级表格预训练并举
标签: semantic-id · pretrained-lm · industrial · parameter-scaling · rl
📊 统计: 共 11 篇 · 精读 3 · 🏢 工业界 0 · 🎓 学术 11 · other 5 · generative-rec 3 · discriminative-rec 3 · llm 3
综述
今日共收录 11 篇论文,3 篇完成精读,覆盖生成式推荐(3)、判别式推荐(3)、LLM 推荐(3)及通用方向(5),工业与学术成果并存。重点工作 MaskTab(蚂蚁集团 MyBank × 浙大)以专用 [MASK]/[MISS] token 把"缺失即信号"编码进统一表格预训练框架,孪生双路监督消除 train-test mismatch,MoE 重建头自适应扩容高维特征交互,TabReD 8 任务平均排名 2.3、CreditRisk 上 +5.04% AUC,并蒸馏到 500 可解释特征获 9.3× 加速,建立了表格预训练在数据量、特征维度与模型规模三轴上的 scaling law。ComeIR(港城大 × 清华)把 Engram 风格静态稀疏记忆外置到生成式推荐表征接口,通过 MM-guided token scoring、dual-level intra/inter Engram 与 Memory-restoring Prediction Head 解决身份保持、SID 结构保持与输入-输出粒度错配,H@5 平均提升 8% 且推理加速 2.5×。TwiSTAR(清华深研院)构建 agentic 生成式推荐:训练 planner 自适应分派 fast SID 检索 / ranking / slow CoT 三种工具,仅对 hard 样本做 GRPO 训练,全面超越 OneRec-Think 且延迟降低 3.3×。趋势上,生成式推荐正沿着"外置记忆增强表征—自适应慢思考—工业蒸馏落地"三条路径快速分化,而工业表格预训练与多市场联邦量化(FedMM)也在把 semantic-id / 量化范式推向更广的判别式场景。
重点论文
MaskTab · ⭐ 8/10
🎓 学术 · 其他
MaskTab 是面向工业级表格分类的统一预训练框架:用专用 [MASK]/[MISS] token 编码'缺失即信号',孪生双路混合监督同时学重建与分类避免 train-test mismatch,MoE 重建头实现高维特征自适应分组扩容,在 TabReD 8 任务平均排名 2.3、CreditRisk 上 +5.04% AUC 与 +8.28% KS,蒸馏到 500 可解释特征仍 +2.55%/+4.85% 且推理快 9.3×。
ComeIR · ⭐ 8/10
Conditional Memory Enhanced Item Representation for Generative Recommendation
🎓 学术 · 生成式推荐
ComeIR 把 Engram 风格静态稀疏记忆外置到生成式推荐的表征构造接口,用 MM-guided token scoring 解决身份保持、dual-level intra/inter Engram 解决 SID 结构保持、Memory-restoring Prediction Head 在解码端复用同套记忆打通输入-输出粒度错配,在 Yelp/Industrial/Instrument 上 H@5 平均提升 8% 并实现 2.5× 推理加速。
TwiSTAR · ⭐ 8/10
TwiSTAR: Think Fast, Think Slow, Then Act, Generative Recommendation with Adaptive Reasoning
🎓 学术 · 生成式推荐
TwiSTAR 提出一种 agentic 生成式推荐框架:训练一个 planner 自适应地为每条用户历史调用三种工具之一(fast SID 检索、ranking、slow CoT 推理),通过把 I2I 共现转写为自然语言注入协同常识、并仅在 hard 样本上 GRPO 训练 slow 模型,在 Amazon Beauty/Sports/Toys 上 NDCG@10 全面超过 OneRec-Think 且推理延迟比 uniform slow reasoning 降低 3.3x。
全部论文
| 模型 | 标题 | 类别 | 公司 | 摘要分 | 精读分 |
|---|---|---|---|---|---|
| MaskTab | MaskTab: Scalable Masked Tabular Pretraining with Scaling Laws and Distillation for Industrial Classification | 其他 | 🎓 学术 | 7 | 8 |
| ComeIR | Conditional Memory Enhanced Item Representation for Generative Recommendation | 生成式 | 🎓 学术 | 7 | 8 |
| TwiSTAR | TwiSTAR: Think Fast, Think Slow, Then Act, Generative Recommendation with Adaptive Reasoning | 生成式 | 🎓 学术 | 0 | 8 |
| FedMM | FedMM: Federated Collaborative Signal Quantization for Multi-Market CTR Prediction | 判别式 | 🎓 学术 | 6 | — |
| RecRM-Bench | RecRM-Bench: Benchmarking Multidimensional Reward Modeling for Agentic Recommender Systems | LLM / 生成式 | 🎓 学术 | 6 | — |
| — | Test-Time Compute for Dense Retrieval: Agentic Program Generation with Frozen Embedding Models | 其他 / LLM | 🎓 学术 | 6 | — |
| HSUGA | HSUGA: LLM-Enhanced Recommendation with Hierarchical Semantic Understanding and Group-Aware Alignment | 判别式 / LLM | 🎓 学术 | 5 | — |
| ORBIT | ORBIT: Preserving Foundational Language Capabilities in GenRetrieval via Origin-Regulated Merging | 其他 | 🎓 学术 | 5 | — |
| ZipRerank | Very Efficient Listwise Multimodal Reranking for Long Documents | 其他 | 🎓 学术 | 5 | — |
| ELM Network | Scaling Laws and Tradeoffs in Recurrent Networks of Expressive Neurons | 其他 | 🎓 学术 | 4 | — |
| QCMP-CL | Quality-Aware Collaborative Multi-Positive Contrastive Learning for Sequential Recommendation | 判别式 | 🎓 学术 | 4 | — |