2026-05-13 日报

主题: 生成式推荐多路径演进与工业级表格预训练并举

标签: semantic-id · pretrained-lm · industrial · parameter-scaling · rl

📊 统计: 共 11 篇 · 精读 3 · 🏢 工业界 0 · 🎓 学术 11 · other 5 · generative-rec 3 · discriminative-rec 3 · llm 3

综述

今日共收录 11 篇论文，3 篇完成精读，覆盖生成式推荐（3）、判别式推荐（3）、LLM 推荐（3）及通用方向（5），工业与学术成果并存。重点工作 MaskTab（蚂蚁集团 MyBank × 浙大）以专用 [MASK]/[MISS] token 把"缺失即信号"编码进统一表格预训练框架，孪生双路监督消除 train-test mismatch，MoE 重建头自适应扩容高维特征交互，TabReD 8 任务平均排名 2.3、CreditRisk 上 +5.04% AUC，并蒸馏到 500 可解释特征获 9.3× 加速，建立了表格预训练在数据量、特征维度与模型规模三轴上的 scaling law。ComeIR（港城大 × 清华）把 Engram 风格静态稀疏记忆外置到生成式推荐表征接口，通过 MM-guided token scoring、dual-level intra/inter Engram 与 Memory-restoring Prediction Head 解决身份保持、SID 结构保持与输入-输出粒度错配，H@5 平均提升 8% 且推理加速 2.5×。TwiSTAR（清华深研院）构建 agentic 生成式推荐：训练 planner 自适应分派 fast SID 检索 / ranking / slow CoT 三种工具，仅对 hard 样本做 GRPO 训练，全面超越 OneRec-Think 且延迟降低 3.3×。趋势上，生成式推荐正沿着"外置记忆增强表征—自适应慢思考—工业蒸馏落地"三条路径快速分化，而工业表格预训练与多市场联邦量化（FedMM）也在把 semantic-id / 量化范式推向更广的判别式场景。

重点论文

MaskTab · ⭐ 8/10

MaskTab: Scalable Masked Tabular Pretraining with Scaling Laws and Distillation for Industrial Classification

🎓 学术 · 其他

MaskTab 是面向工业级表格分类的统一预训练框架：用专用 [MASK]/[MISS] token 编码'缺失即信号'，孪生双路混合监督同时学重建与分类避免 train-test mismatch，MoE 重建头实现高维特征自适应分组扩容，在 TabReD 8 任务平均排名 2.3、CreditRisk 上 +5.04% AUC 与 +8.28% KS，蒸馏到 500 可解释特征仍 +2.55%/+4.85% 且推理快 9.3×。

ComeIR · ⭐ 8/10

Conditional Memory Enhanced Item Representation for Generative Recommendation

🎓 学术 · 生成式推荐

ComeIR 把 Engram 风格静态稀疏记忆外置到生成式推荐的表征构造接口，用 MM-guided token scoring 解决身份保持、dual-level intra/inter Engram 解决 SID 结构保持、Memory-restoring Prediction Head 在解码端复用同套记忆打通输入-输出粒度错配，在 Yelp/Industrial/Instrument 上 H@5 平均提升 8% 并实现 2.5× 推理加速。

TwiSTAR · ⭐ 8/10

TwiSTAR: Think Fast, Think Slow, Then Act, Generative Recommendation with Adaptive Reasoning

🎓 学术 · 生成式推荐

TwiSTAR 提出一种 agentic 生成式推荐框架：训练一个 planner 自适应地为每条用户历史调用三种工具之一（fast SID 检索、ranking、slow CoT 推理），通过把 I2I 共现转写为自然语言注入协同常识、并仅在 hard 样本上 GRPO 训练 slow 模型，在 Amazon Beauty/Sports/Toys 上 NDCG@10 全面超过 OneRec-Think 且推理延迟比 uniform slow reasoning 降低 3.3x。

全部论文

模型	标题	类别	公司	摘要分	精读分
MaskTab	MaskTab: Scalable Masked Tabular Pretraining with Scaling Laws and Distillation for Industrial Classification	其他	🎓 学术	7	8
ComeIR	Conditional Memory Enhanced Item Representation for Generative Recommendation	生成式	🎓 学术	7	8
TwiSTAR	TwiSTAR: Think Fast, Think Slow, Then Act, Generative Recommendation with Adaptive Reasoning	生成式	🎓 学术	0	8
FedMM	FedMM: Federated Collaborative Signal Quantization for Multi-Market CTR Prediction	判别式	🎓 学术	6	—
RecRM-Bench	RecRM-Bench: Benchmarking Multidimensional Reward Modeling for Agentic Recommender Systems	LLM / 生成式	🎓 学术	6	—
—	Test-Time Compute for Dense Retrieval: Agentic Program Generation with Frozen Embedding Models	其他 / LLM	🎓 学术	6	—
HSUGA	HSUGA: LLM-Enhanced Recommendation with Hierarchical Semantic Understanding and Group-Aware Alignment	判别式 / LLM	🎓 学术	5	—
ORBIT	ORBIT: Preserving Foundational Language Capabilities in GenRetrieval via Origin-Regulated Merging	其他	🎓 学术	5	—
ZipRerank	Very Efficient Listwise Multimodal Reranking for Long Documents	其他	🎓 学术	5	—
ELM Network	Scaling Laws and Tradeoffs in Recurrent Networks of Expressive Neurons	其他	🎓 学术	4	—
QCMP-CL	Quality-Aware Collaborative Multi-Positive Contrastive Learning for Sequential Recommendation	判别式	🎓 学术	4	—