2026-05-20 日报
主题: 向量量化双线推进,推荐与推理理论同台
标签: quantization · pretrained-lm · contrastive-ssl · academic
📊 统计: 共 4 篇 · 精读 1 · 🏢 工业界 0 · 🎓 学术 4 · other 1 · llm 2 · discriminative-rec 1
综述
本日共 4 篇论文,1 篇精读 3 篇略读;类别分布为 LLM 2 篇、判别式推荐 1 篇、其他 1 篇,全部来自学术机构。重点是首尔国立大学的 BlockQuant(2605.19972),把 rotation-based 向量量化的码本从 coordinate-wise scalar 推广到 block-on-sphere,按球面均匀分布解析推导块边缘分布并做 K-means,在 MSE 与内积失真两个准则上严格优于 EDEN/RabitQ/TurboQuant,p=d 时达到修正后的 Shannon 下界,并在 Llama-3.1-8B KV-cache 3.5-bit 量化下让 LongBench-E 平均分逼近 full cache(44.03 vs 44.15)。MDCNS(2605.19651)借鉴 Vygotsky 最近发展区,用"教师-同伴-自我"三方打分加分歧重排与共识蒸馏,打破自引导硬负采样的自强化循环。测度论推理分析(2605.19944)用最优传输框架证明 RoPE 等平移不变位置编码与电路深度是 OOD 泛化的关键瓶颈,深度扩展比宽度扩展更必要。K-Quantization 实证(2605.19645)则发现 7-9B 中等模型在 2-6bit 区间取得效率-性能最佳平衡。当日两大方向值得关注:量化理论从经验调参走向解析最优码本设计;以及推荐与 LLM 在采样策略与结构理论上的交叉借鉴。
重点论文
BlockQuant · ⭐ 8/10
Block-Sphere Vector Quantization
🎓 学术 · 其他
BlockQuant 把 rotation-based 向量量化的码本从 coordinate-wise scalar 推广到 block-on-sphere——按球面均匀分布解析推导的精确块边缘分布做 K-means,在 MSE/IP 失真两个准则上严格优于 EDEN/RabitQ/TurboQuant,p=d 时达到本文修正后的 Shannon 下界;在 Llama-3.1-8B KV-cache 3.5-bit 量化下 LongBench-E 平均 44.03 接近 full cache 44.15。
MDCNS · ⭐ 6/10
Divergence Meets Consensus: A Multi-Source Negative Sampling Framework for Sequential Recommendation
🎓 学术 · 判别式推荐
提出MDCNS多源负采样框架,借鉴Vygotsky最近发展区理论,通过"教师-同伴-自我"三方打分、分歧重排序与共识蒸馏来打破自引导硬负采样的自强化循环,提升采样多样性和效率。
A Measure-Theoretic Analysis of Reasoning: Structural Generalization and Approximation Limits · ⭐ 5/10
🎓 学术 · LLM
用测度论和最优传输框架分析Transformer推理的OOD泛化界,证明位置编码的平移不变性(RoPE vs APE)和电路深度(TC⁰下界)是关键瓶颈,扩展深度比扩展宽度更必要。
K-Quantization and its Impact on Output Performance · ⭐ 4/10
🎓 学术 · LLM
实证评估8个LLM在2-6bit K-Quantization下的性能表现,发现高精度(Q8_0)效果最好但收益递减,大模型对激进量化更鲁棒,7-9B中等模型在效率和资源间取得最佳平衡。
全部论文
| 模型 | 标题 | 类别 | 公司 | 摘要分 | 精读分 |
|---|---|---|---|---|---|
| BlockQuant | Block-Sphere Vector Quantization | 其他 | 🎓 学术 | 7 | 8 |
| MDCNS | Divergence Meets Consensus: A Multi-Source Negative Sampling Framework for Sequential Recommendation | 判别式 | 🎓 学术 | 6 | — |
| — | A Measure-Theoretic Analysis of Reasoning: Structural Generalization and Approximation Limits | LLM | 🎓 学术 | 5 | — |
| — | K-Quantization and its Impact on Output Performance | LLM | 🎓 学术 | 4 | — |