← 返回报告列表

2026-05-12 日报

日报 📅 2026-05-09 ~ 2026-05-11
工业级推荐系统全栈突破与 LLM 缩放/几何理论双线深化
semantic-id industrial parameter-scaling pretrained-lm recursive-depth
📊 共 10 篇 · 精读 6

2026-05-12 日报

主题: 工业级推荐系统全栈突破与 LLM 缩放/几何理论双线深化

标签: semantic-id · industrial · parameter-scaling · pretrained-lm · recursive-depth

📊 统计: 共 10 篇 · 精读 6 · 🏢 工业界 3 · 🎓 学术 7 · llm 3 · discriminative-rec 3 · generative-rec 1 · other 3

综述

本日共 10 篇论文,6 篇精读 4 篇略读,覆盖 LLM(3 篇)、判别式/生成式推荐(4 篇)与系统/检索(3 篇),工业与学术约各半。Arena Physica 的 "Practical Scaling Laws" 提出 8 参数闭合形式 L(N,D,T),将 loss 分解为 undercapacity/undertraining/overfitting 并在 5 个公开 LLM grid 上将外推 RMSE 平均降低 49%,给出数据-算力价格比驱动的成本最优分配。快手 UxSID 开辟超长序列建模的 "第三范式"——用 target SID 作为语义路由键索引 (UID, SID) 离线压缩兴趣 memory,实现 O(1) 在线推理,4 亿用户广告 A/B 实现 +0.337% Revenue 仅增 0.16ms 延迟。百度 LASAR 首次将 Coconut 风格递归 hidden-state latent reasoning 完整移植到 decoder-only 生成式推荐,配合两阶段解耦与 REINFORCE 自适应推理深度,在 Amazon 三数据集近全 SOTA 且比显式 CoT 快约 20×。小红书 CCD 级线程编排在 chiplet 多核 CPU 上为 HNSW/IVF 取得 1.4–3.7× 吞吐与 30–90% 延迟改善。学术侧 "Geometric Wall" 用 Fisher-Rao 信息几何在 844 个 Gemma Scope checkpoints 上证明 SAE 重构的层级差异由流形内禀维度与多尺度曲率决定,几何回归在 2B↔9B 间跨模型迁移 R²>0.92。整体看,工业线条围绕 Semantic ID + 超长序列 + 系统级吞吐展开闭环,理论线条则把 "scaling" 从经验拟合推进到几何与价格比驱动的可解释边界,值得持续关注 latent reasoning 与 manifold-aware scaling 的交叉。

重点论文

Practical Scaling Laws: Converting Compute into Performance in a Data-Constrained World · ⭐ 9/10

🎓 学术 · LLM

提出 8 参数闭合形式扩展 L(N,D,T)=E+(L₀−E)h/(1+h),把 loss 分解为 undercapacity、undertraining、overfitting 三项并用饱和包装器限定在 [E, L₀];跨 4 个架构域和 5 个公开 LLM grid 取得 SOTA 外推,并给出 data-vs-compute 价格比驱动的 closed-form 成本最优分配。

UxSID · ⭐ 9/10

UxSID: Semantic-Aware User Interests Modeling for Ultra-Long Sequence

🏢 Kuaishou · 判别式推荐

UxSID 提出 ULSM 的第三条范式:用 target SID 作为语义路由键,按 (UID, SID) 索引离线压缩用户兴趣 memory,online O(1) 拉取,在快手 4 亿用户广告平台一周 A/B 实现 +0.337% Revenue 且仅增加 +0.16 ms 延迟。

LASAR · ⭐ 8/10

LASAR: Latent Adaptive Semantic Aligned Reasoning for Generative Recommendation

🏢 Baidu · 生成式推荐

把 Coconut 风格递归 hidden-state feedback latent reasoning 首次完整移植到主流 decoder-only 生成式推荐:两阶段解耦(先 SID alignment 再 latent loop)+ 每步 bidirectional KL 对齐到 explicit CoT 段 + Policy Head + REINFORCE 做样本级自适应推理步数,在 Amazon 三数据集上几乎全 SOTA,比生成显式 CoT 快约 20×。

CCD-Level and Load-Aware Thread Orchestration for In-Memory Vector ANNS on Multi-Core CPUs · ⭐ 8/10

🏢 Xiaohongshu · 其他

针对 chiplet 时代多 CCD CPU 上向量 ANNS 加核不加吞吐的瓶颈,提出 hot-cold 均衡映射 + CCD 拓扑感知任务窃取 + 快照重映射的统一线程编排框架,在 RedNote 生产环境 HNSW/IVF 服务上取得 1.4–3.7× 吞吐和 30–90% P50/P999 延迟改善。

The Geometric Wall: Manifold Structure Predicts Layerwise Sparse Autoencoder Scaling Laws · ⭐ 7/10

🎓 学术 · LLM

用 pullback 信息几何把 SAE 重构误差的层级差异归因于激活流形的内禀维度与多尺度曲率:在 844 个 Gemma Scope checkpoints 上拟出几何条件 scaling law,在 2B↔9B 之间几何回归系数迁移 R²>0.92,识别 SAE 遭遇的不是有限算力天花板而是流形几何决定的几何墙。

全部论文

模型 标题 类别 公司 摘要分 精读分
Practical Scaling Laws: Converting Compute into Performance in a Data-Constrained World LLM 🎓 学术 8 9
UxSID UxSID: Semantic-Aware User Interests Modeling for Ultra-Long Sequence 判别式 🏢 Kuaishou 8 9
LASAR LASAR: Latent Adaptive Semantic Aligned Reasoning for Generative Recommendation 生成式 🏢 Baidu 8 8
CCD-Level and Load-Aware Thread Orchestration for In-Memory Vector ANNS on Multi-Core CPUs 其他 🏢 Xiaohongshu 0 8
Language Models Without a Trainable Input Embedding Table: Learning from Fixed Minimal Binary Token Codes LLM 🎓 学术 0 7
The Geometric Wall: Manifold Structure Predicts Layerwise Sparse Autoencoder Scaling Laws LLM 🎓 学术 0 7
A General Framework for Multimodal LLM-Based Multimedia Understanding in Large-Scale Recommendation Systems 判别式 🎓 学术 6
CVA Compressed Video Aggregator: Content-driven Module for Efficient Micro-Video Recommendation 判别式 🎓 学术 6
NumColBERT NumColBERT: Non-Intrusive Numeracy Injection for Late-Interaction Retrieval Models 其他 🎓 学术 4
Reddit2Deezer Reddit2Deezer: A Scalable Dataset for Real-World Grounded Conversational Music Recommendation 其他 🎓 学术 4