← 返回报告列表

2026-05-13 日报

日报 📅 2026-05-12
生成式推荐多路径演进与工业级表格预训练并举
semantic-id pretrained-lm industrial parameter-scaling rl
📊 共 11 篇 · 精读 3

2026-05-13 日报

主题: 生成式推荐多路径演进与工业级表格预训练并举

标签: semantic-id · pretrained-lm · industrial · parameter-scaling · rl

📊 统计: 共 11 篇 · 精读 3 · 🏢 工业界 0 · 🎓 学术 11 · other 5 · generative-rec 3 · discriminative-rec 3 · llm 3

综述

今日共收录 11 篇论文,3 篇完成精读,覆盖生成式推荐(3)、判别式推荐(3)、LLM 推荐(3)及通用方向(5),工业与学术成果并存。重点工作 MaskTab(蚂蚁集团 MyBank × 浙大)以专用 [MASK]/[MISS] token 把"缺失即信号"编码进统一表格预训练框架,孪生双路监督消除 train-test mismatch,MoE 重建头自适应扩容高维特征交互,TabReD 8 任务平均排名 2.3、CreditRisk 上 +5.04% AUC,并蒸馏到 500 可解释特征获 9.3× 加速,建立了表格预训练在数据量、特征维度与模型规模三轴上的 scaling law。ComeIR(港城大 × 清华)把 Engram 风格静态稀疏记忆外置到生成式推荐表征接口,通过 MM-guided token scoring、dual-level intra/inter Engram 与 Memory-restoring Prediction Head 解决身份保持、SID 结构保持与输入-输出粒度错配,H@5 平均提升 8% 且推理加速 2.5×。TwiSTAR(清华深研院)构建 agentic 生成式推荐:训练 planner 自适应分派 fast SID 检索 / ranking / slow CoT 三种工具,仅对 hard 样本做 GRPO 训练,全面超越 OneRec-Think 且延迟降低 3.3×。趋势上,生成式推荐正沿着"外置记忆增强表征—自适应慢思考—工业蒸馏落地"三条路径快速分化,而工业表格预训练与多市场联邦量化(FedMM)也在把 semantic-id / 量化范式推向更广的判别式场景。

重点论文

MaskTab · ⭐ 8/10

MaskTab: Scalable Masked Tabular Pretraining with Scaling Laws and Distillation for Industrial Classification

🎓 学术 · 其他

MaskTab 是面向工业级表格分类的统一预训练框架:用专用 [MASK]/[MISS] token 编码'缺失即信号',孪生双路混合监督同时学重建与分类避免 train-test mismatch,MoE 重建头实现高维特征自适应分组扩容,在 TabReD 8 任务平均排名 2.3、CreditRisk 上 +5.04% AUC 与 +8.28% KS,蒸馏到 500 可解释特征仍 +2.55%/+4.85% 且推理快 9.3×。

ComeIR · ⭐ 8/10

Conditional Memory Enhanced Item Representation for Generative Recommendation

🎓 学术 · 生成式推荐

ComeIR 把 Engram 风格静态稀疏记忆外置到生成式推荐的表征构造接口,用 MM-guided token scoring 解决身份保持、dual-level intra/inter Engram 解决 SID 结构保持、Memory-restoring Prediction Head 在解码端复用同套记忆打通输入-输出粒度错配,在 Yelp/Industrial/Instrument 上 H@5 平均提升 8% 并实现 2.5× 推理加速。

TwiSTAR · ⭐ 8/10

TwiSTAR: Think Fast, Think Slow, Then Act, Generative Recommendation with Adaptive Reasoning

🎓 学术 · 生成式推荐

TwiSTAR 提出一种 agentic 生成式推荐框架:训练一个 planner 自适应地为每条用户历史调用三种工具之一(fast SID 检索、ranking、slow CoT 推理),通过把 I2I 共现转写为自然语言注入协同常识、并仅在 hard 样本上 GRPO 训练 slow 模型,在 Amazon Beauty/Sports/Toys 上 NDCG@10 全面超过 OneRec-Think 且推理延迟比 uniform slow reasoning 降低 3.3x。

全部论文

模型 标题 类别 公司 摘要分 精读分
MaskTab MaskTab: Scalable Masked Tabular Pretraining with Scaling Laws and Distillation for Industrial Classification 其他 🎓 学术 7 8
ComeIR Conditional Memory Enhanced Item Representation for Generative Recommendation 生成式 🎓 学术 7 8
TwiSTAR TwiSTAR: Think Fast, Think Slow, Then Act, Generative Recommendation with Adaptive Reasoning 生成式 🎓 学术 0 8
FedMM FedMM: Federated Collaborative Signal Quantization for Multi-Market CTR Prediction 判别式 🎓 学术 6
RecRM-Bench RecRM-Bench: Benchmarking Multidimensional Reward Modeling for Agentic Recommender Systems LLM / 生成式 🎓 学术 6
Test-Time Compute for Dense Retrieval: Agentic Program Generation with Frozen Embedding Models 其他 / LLM 🎓 学术 6
HSUGA HSUGA: LLM-Enhanced Recommendation with Hierarchical Semantic Understanding and Group-Aware Alignment 判别式 / LLM 🎓 学术 5
ORBIT ORBIT: Preserving Foundational Language Capabilities in GenRetrieval via Origin-Regulated Merging 其他 🎓 学术 5
ZipRerank Very Efficient Listwise Multimodal Reranking for Long Documents 其他 🎓 学术 5
ELM Network Scaling Laws and Tradeoffs in Recurrent Networks of Expressive Neurons 其他 🎓 学术 4
QCMP-CL Quality-Aware Collaborative Multi-Positive Contrastive Learning for Sequential Recommendation 判别式 🎓 学术 4