← Back to list

Language Models Without a Trainable Input Embedding Table: Learning from Fixed Minimal Binary Token Codes

LLM 学术
Abstract — Reading 7 Rating —
2026-05-10
Andrey Bochkov
Independent
用 K=⌈log₂V⌉ 比特的固定二元 token 码 + 零参数 tile lift 替换 67.1M 的可训练输入嵌入表,在 32 层 17B tokens 训练下 PPL 不退化 (2.36 vs 2.44,差距在 4.8% seed 区间内),构造性地证明 LLM 输入侧的 trainable embedding table 不是架构必要项。
评分原因
精读评分:概念新颖、形式化严谨(4 个命题 + 证明)、实证主张克制(仅声称非必要性而非优越性),但实验体量较小(单作者 / 单 tokenizer / 32 层 / 17B tokens / 3 seeds),且 fixed-code 的微弱优势机制未澄清;属于'narrow but sharp'类工作的下沿扎实之作。
transformer academic

Language Models Without a Trainable Input Embedding Table: Learning from Fixed Minimal Binary Token Codes

  • 作者:Andrey Bochkov(独立研究者,无 affiliation,邮箱 [email protected]
  • arXiv:2605.09751v1 (2026-05-10, cs.CL)
  • License:CC BY 4.0
  • 代码与配置:https://huggingface.co/E6E831728

一、研究动机与背景

现代语言模型几乎无一例外都从一张可训练的输入嵌入表(input embedding table)$E_{\text{in}} \in \mathbb{R}^{V \times d_{\text{model}}}$ 开始:token ID $t \in \{0, \dots, V-1\}$ 通过一次 lookup 被映射到一个 $d_{\text{model}}$ 维连续向量,作为后续所有计算的起点。这个设计如此标准,以至于它常被当作"架构不可或缺的组件"——既要承担token identity 的载体,又要承担初始语义几何的角色。

但作者从信息论角度提出了一个简单但被忽视的事实:对一个大小为 $V$ 的词表,token identity 仅需要 $K = \lceil \log_2 V \rceil$ 比特就可以唯一表达。当 $V = 65{,}536$ 时,$K = 16$ 已足够注入身份信息。然而一张标准嵌入表却使用了 $V \times d_{\text{model}} = 65{,}536 \times 1{,}024 \approx 67.1\text{M}$ 个可训练参数——相对于"身份"这一最小需求,存在严重的过参数化

由此作者提出了核心问题:

Does a Transformer language model need a trainable input embedding table, or is exact token identity enough? (Transformer 语言模型真的需要一张可训练的输入嵌入表吗,还是 token identity 本身就足够?)

值得强调的是,这个问题与 ALBERT、Adaptive Inputs、DeFINE、LightRNN、Hash Embeddings、Compositional Code Learning 等"嵌入压缩 / 共享"工作根本不同:那些方法仍然在学一个连续可训练的输入表达,只是结构上更紧凑;本文则要彻底移除输入侧的可训练参数。

输出端(output projection / language-model head)保持标准的可训练大矩阵,论文有意将"输入接口的必要性"与"输出层的可微"完全解耦,只问输入端的问题。

作者的结论是一句很谨慎的充分性陈述(sufficiency statement):在他们所测的 regime 下,一个固定、最小、单射的 binary token-identity code,已经足以让 Transformer stack 学到有用的语言模型——可训练输入嵌入表不是架构必要项

二、核心方法

整体上,本文用一条确定性的二元编码接口替换了 $t \mapsto E_{\text{in}}[t]$:

$$ t \;\longmapsto\; x(t) = R\,\tilde{c}(t) \in \mathbb{R}^{d_{\text{model}}} \tag{1} $$

其中:

  • $\tilde{c}(t) \in \{0,1\}^K$ 是赋给 token $t$ 的固定二元码
  • $R \in \mathbb{R}^{d_{\text{model}} \times K}$ 是一个零参数 fixed lift,把 $K$ 维码升到模型宽度。

整个输入接口里不包含任何可训练参数,输出端 head 仍可训练。

2.1 Canonical minimal binary code

给定 token ID $t \in \{0, \dots, V-1\}$,最直接的最小码就是它的 $K$ 比特二进制展开:

$$ c(t) = \mathrm{bin}_K(t) \in \{0,1\}^K, \qquad c(t)_j = \left\lfloor \frac{t}{2^j} \right\rfloor \bmod 2 \tag{2} $$

其中 $j = 0$ 对应最低位。当 $V = 2^K$(恰好是 2 的幂)时,这是 token ID 空间到完整 binary hypercube $\{0,1\}^K$ 的双射;当 $V \lt 2^K$ 时仍是单射,仅有 $2^K - V$ 个码空缺。

2.2 Affine-recoded table-free variant

为了检验"模型表现是否依赖于 canonical 二进制排序",作者引入第二个变体——一个完全无表(table-free)的实现:

$$ \tilde{c}(t) = A\,c(t) \oplus b, \qquad A \in GL(K, 2),\; b \in \{0,1\}^K \tag{3} $$

其中 $\oplus$ 是模 2 加法,$A$ 是 $\mathbb{F}_2$ 上的可逆 $K \times K$ 矩阵。这是一种严格强于简单坐标置换的变换:稠密可逆 $A$ 把多个输入比特混合进每个输出比特,同时保持可逆性。当 $A = I$ 且 $b = 0$ 时退化为 canonical code。

关键性质:在 $V = 2^K$ 时,仿射重编码仍是 $\{0,1\}^K$ 上的双射,因而 codebook 仍然完整覆盖整个 hypercube;它改变了 token 到 code 的对应关系,但没有改变 codebook 的统计平衡。Appendix D 中的 Corollary 1 证明:在每一位上各自有 $2^{K-1}$ 个 token 取 0 和 $2^{K-1}$ 个 token 取 1;在任意两位上,四种 pattern $(0,0), (0,1), (1,0), (1,1)$ 各出现 $2^{K-2}$ 次。换言之,不存在 trivial 全局频率偏置

2.3 Zero-parameter tiled lift

$K$ 维二元码必须被提升到模型宽度 $d_{\text{model}}$。作者选择 $d_{\text{model}}$ 可被 $K$ 整除,记 $d_{\text{model}} = sK$,然后用vertical-tile identity

$$ R = \begin{bmatrix} I_K \\ I_K \\ \vdots \\ I_K \end{bmatrix} \in \{0,1\}^{d_{\text{model}} \times K} \tag{4} $$

也就是说 $x(t) = [\tilde{c}(t); \tilde{c}(t); \dots; \tilde{c}(t)]^\top$,把 $K$ 维码沿宽度方向重复 $s$ 遍。在主实验中 $V = 65{,}536$、$K = 16$、$d_{\text{model}} = 1024$,因此每个 token 的输入向量是一个16 维二元码沿宽度铺 64 次得到的 1024 维向量。

该 lift 满足:

  • 零可训练参数
  • 列满秩 $\mathrm{rank}(R) = K$,保证 $x(\cdot)$ 仍是单射;
  • 每一段连续 $K$ 维 hidden block 都保留完整的 token 码——这对自注意力的多头机制特别友好(每个 head 都看见全部 16 比特)。

2.4 三种 input parameterization 总览

最终的对照实验设了三种 input head,其他一切(tokenizer、词表、深度、宽度、训练 recipe)完全相同:

  1. Learned input table(baseline):标准可训练 $E_{\text{in}} \in \mathbb{R}^{V \times d_{\text{model}}}$,67.1M 可训练参数。
  2. Fixed minimal binary code:$x(t) = R\,\mathrm{bin}_{16}(t)$,frozen lookup 或 on-the-fly 都可;0 可训练参数。
  3. Affine-recoded table-free:$x(t) = R(A\,\mathrm{bin}_{16}(t) \oplus b)$;0 可训练参数,连存表都不需要。

由于 $d_{\text{model}} / n_{\text{head}} = 1024 / 32 = 32 = 2K$,每个注意力 head 在 tiled lift 下接收两份完整 16-bit 码

2.5 Frozen lookup ≡ Table-free(重要)

作者特别提醒:canonical fixed-code 既可实现为frozen lookup(precompute $E_{\mathrm{fix}} \in \mathbb{R}^{V \times d}$,存表但禁止更新),也可实现为table-free runtime computation(位运算从 token ID 算 code)。两者函数等价:相同的 $(c, A, b, R)$ 下,每个 token 得到完全相同的 $x(t)$。因此 canonical fixed-code 应被解读为一个 input parameterization 实验,而不是"需要存表"的证据;affine-recoded 变体则直接以 table-free 形式实现,输入端没有任何形式的 lookup table。

2.6 理论结论(Appendix D 摘录)

  • Proposition 1(最小码长):从 $V$ 个 token 单射到 $\{0,1\}^K$ 需要 $K \ge \lceil \log_2 V \rceil$。证明:$\{0,1\}^K$ 中只有 $2^K$ 个不同向量。
  • Proposition 2(仿射+满秩 lift 无碰撞):若 $c$ 单射、$A \in GL(K,2)$、$\mathrm{rank}(R) = K$,则 $x(t) = R(Ac(t) \oplus b)$ 在 $\mathcal{V} \to \mathbb{R}^d$ 上单射。
  • Corollary 1(完整覆盖 hypercube):当 $V = 2^K$ 时,affine-recoded 码集合恰好等于完整 hypercube $\{0,1\}^K$。
  • Proposition 3(输入有效秩):$\dim(\mathrm{span}\{x(t) : t \in \mathcal{V}\}) \le \mathrm{rank}(R) \le K$;在 $V = 2^K$ 且 $\mathrm{rank}(R) = K$ 时取等。

最后一条 Proposition 在概念上极其关键:1024 维 Transformer 在第一个可训练层之前只接收"有效秩 16"的输入。换言之,模型必须在 Transformer 内部从一个 16 维 affine 子空间里重建出所有连续语义结构,输入端只提供"地址"。

三、实验设置

3.1 Architecture

所有 base 运行都是 32-layer decoder-only Transformer

  • $d_{\text{model}} = 1024$,$n_{\text{head}} = 32$(head dim = 32 = 2K)
  • Context length = 1024
  • 旋转位置编码 (RoPE)
  • GELU 激活
  • Untied trainable output projection(输出 head 不与输入共享,且始终可训练)
  • 词表 $V = 65{,}536$(深思熟虑地选 2 的 16 次方)

3.2 Data & training

  • 数据混合:FineWeb-Edu (0.8) + Cosmopedia (0.2)
  • Tokenizer:固定 65,536-词 Unicode-兼容 BPE,跨所有变体复用
  • Tokens:learned-input 与 fixed-code 各跑 17.093B tokens / seed,affine-recoded 因调度限制跑 16.276B tokens(略短)
  • Optimizer:AdamW,weight decay 0.1,gradient clip 1.0,FP32 精度
  • LR schedule:cosine decay + warmup
  • Hardware:base 用 2 × H100 80GB,吞吐约 19.8k tokens/s

详细超参(Table 2 / 3):

Run Precision Optimizer LR Warmup WD Grad clip
Base pretraining FP32 AdamW $4.0\times10^{-4}$ 150 0.1 1.0
SFT continuation FP32 AdamW $2.0\times10^{-5}$ 100 0.01 1.0
Run GPUs Global micro-batch Grad accum Effective tokens/update
Base pretraining 2 × H100 80GB 16 200 3.28 M
SFT continuation 1 × H100 80GB 6 100 0.61 M

3.3 Seeds & evaluation protocol

每个变体跑 3 个独立随机种子(控制初始化和数据 order),报告 across-seeds 算术平均和相对种子区间 $(\max - \min) / \text{mean}$。验证 loss 在 document-level held-out split 上计算;下游 logit-based 评测对每个候选答案取 conditional log-likelihood,选最大者。作者明确不假设正态分布、不把种子区间当作置信区间——只是当作"种子噪声幅度"的描述。

四、主要实验结果

4.1 Main result:full-scale 32 层对比(Table 1)

Model variant Tokens/seed Val loss Val PPL (mean) Rel. seed range
Learned input table 17.1 B 0.893 2.44 4.8%
Fixed minimal binary code 17.1 B 0.859 2.36 4.6%
Affine-recoded minimal code (table-free) 16.3 B 0.871 2.39 4.5%

分析

  1. Non-degradation:在严格匹配的 tokenizer / 架构 / 训练 recipe 下,把 67.1M 可训练输入参数完全去掉,验证困惑度并没有变差。fixed-code 的均值 PPL 反而更低(2.36 vs 2.44,相对下降 3.3%)。

  2. 种子噪声足以覆盖差异:观察到 4.8% 的种子相对区间,恰好覆盖 2.36 → 2.44 的差距。作者因此并不主张统计显著的优越性,而是把结果解读为"trainable input table is not necessary"的充分性证据——这是一种比"我们更好"更克制、更严格的科学表述。

  3. Table-free 仍然有效:affine-recoded 在略短的训练(16.3B vs 17.1B tokens)下仍达到 2.39,说明这不是依赖于 canonical token-ID 排序的偶然——把整个 codebook 经 affine recoding 打散后,模型依然能 train 出几乎相同的语言模型。

4.2 Robustness to code assignment(§5.2)

affine-recoded 实验等价于"换一个完全不同但仍是双射的 codebook 排布"。如果 canonical code 的成功是因为 token-ID 顺序里恰好藏了某种可利用结构,那么仿射重编码应该会显著破坏性能。但作者没有观测到 collapse。这给出一个强结论:关键不是某种 privileged input geometry 或 token-ID ordering,而是有一个稳定的、单射的、collision-free 的 token-identity 接口

4.3 Matched-depth ablations(Appendix B / Table 4)

为了排除"深度效应",作者补充了 9 层和 16 层的对比:

Depth Learned input Val PPL Fixed minimal code Val PPL Relative change
9 layers 3.77 3.76 −0.3%
16 layers 2.42 2.38 −1.7%
32 layers 2.44 2.36 −3.3%

分析:non-degradation 在三个深度上都成立;fixed-code 的相对优势随深度递增。作者没有把这张表当作 depth scaling law——超参没有对每个深度独立调;它只是 sanity check,确认主结论不是 32 层的偶然。但这条曲线本身提示一个值得追问的现象:模型越深,固定输入接口反而越能利用 Transformer stack 内部的表征能力

4.4 SFT continuations(Appendix C / Table 5)

虽然不是主声明的支撑实验,但作者从三个 base checkpoint 各跑了一个 SFT 续训,使用相同的监督混合、LR schedule 和评测协议:

Model variant Val PPL ARC-C HellaSwag BoolQ SQuAD gold PPL
Learned input table + SFT 2.42 29.77 29.40 64.06 3.48
Fixed minimal binary code + SFT 2.39 28.09 26.70 61.33 3.33
Affine-recoded minimal code + SFT 2.44 31.44 26.80 64.06 3.65

分析

  • 没有一边倒:三种 input 在不同下游任务上各有胜负,画面是 task-dependent 而非 uniformly dominant;
  • fixed-code 在 Val PPL 和 SQuAD gold PPL 上夺冠,affine-recoded 在 ARC-C 上夺冠(窄差距),learned input 在 HellaSwag 上仍是最强;
  • 作者明确把 SFT 结果定位为次要证据:SFT 改变了数据分布和目标函数,引入了主比较中没有的混淆因素;主声明完全靠 Table 1 的 base pretraining 比较来建立。

这种 explicit 的实验分层(哪些表是"主证据"、哪些是"附录中的 sanity check")在 LLM 论文中是比较少见的克制写法。

五、消融与分析

5.1 为什么这个非退化结果是有意义的

作者在 Discussion 一节做了哲学层面的反思:实验的意义不在于证明 fixed binary code 是最优的输入接口,而在于它是一个针对必要性主张的构造性反例(constructive counterexample to necessity)。

具体地,作者把现代 LLM 中的"input embedding table"区分为两个常被混为一谈的角色:

  • 角色 A(载体):作为 token identity 的稳定 address;
  • 角色 B(语义初始化器):作为一个为下游 attention 提供初始几何先验的可训练对象。

绝大多数嵌入压缩 / 共享工作(ALBERT, Adaptive Input, DeFINE, LightRNN, Hash Embedding, Compositional Code Learning)都仅是压缩角色 B 的容量,仍然保留了"输入端必须有一个可训练的语义对象"的隐含假设。本文则证明角色 B 本身就不是必要的——只要角色 A 被一个稳定、单射、collision-free 的离散码满足即可。

5.2 Input rank 是否会成为瓶颈?

Proposition 3 表明,在所有 token 经过第一个可训练层之前,输入向量都被困在一个 16 维 affine 子空间中(虽然在名义上是 1024 维)。直觉上这应该是个严重的信息瓶颈,但实验显示模型并未崩溃。这意味着 Transformer 的第一层 MLP(实际上是第一组 attention + FFN)本身就承担了"把 16 维离散 identity 投影到富含语义结构的连续表征"的角色

这与作者在 Discussion 中反复强调的另一观点呼应:

A token representation at the input need not be a semantic vector; it may simply be a stable address. (输入端的 token 表征不一定是一个语义向量,它只需要是一个稳定的地址。)

这一观点显然对长期被 word2vec / GloVe 训练出来的"input embedding = semantic vector"的范式提出挑战——尤其考虑到 modern LLM 输入端面对的大量是 weak / fragmented 的 lexical 单元(大小写、code fragment、字符级片段),其"semantic vector"本身就难以良好定义。

5.3 Limitations(作者自述)

作者列了几条诚实的局限:

  1. 单一 tokenizer 家族 + 单一主词表大小:方法本身可扩展到任意 $V$(通过 $K = \lceil \log_2 V \rceil$),但跨 tokenizer / byte-level / 多语料的 broader experiment 仍待补做;
  2. 种子区间未消除:3 seeds 不足以宣称统计显著的优越性,因此作者只主张 non-degradation,不主张 strict superiority;
  3. 共享 recipe,未独立调超参:学习率、warmup 等都没有为每种 input parameterization 单独 sweep,更大范围的 LR sweep 可能改变小的 PPL 边际差异;
  4. 未做 multilingual / byte-level / character-level 等极端 vocabulary 设定下的测试。

作者特别强调:"Our conclusion therefore relies on non-degradation under a shared recipe, rather than on optimality of the fixed-code parameterization."

六、核心贡献总结

  1. 概念贡献:明确分离 token identity(address)与 input semantic geometry(embedding)两个角色,论证只有前者是必要的;
  2. 方法贡献:提出"最小二元码 + zero-parameter tiled lift"作为一种零可训练参数的输入接口;以及更激进的 affine-recoded table-free 变体;
  3. 理论结果:给出最小码长、affine + 满秩 lift 无碰撞、完整 hypercube 覆盖、effective input rank 等命题的形式化证明;
  4. 实证结果:在 32 层 decoder-only Transformer、17B tokens 训练规模下,证明移除 67.1M 可训练输入参数不会损害 held-out 语言建模质量;
  5. 方法论贡献:示范了一种"narrow but rigorous"的写作姿态——用 sufficiency statement 与种子区间分析约束自己的 claim,不夸大 marginal 改进。

七、讨论与局限性

7.1 与现有工作的根本差异

本文与"input embedding 优化"文献的关系是根本不同而非渐进改进

  • ALBERT / Adaptive Input / DeFINE:仍然学习一个连续可训练的输入对象,只是结构上更紧凑;本文完全移除输入端的可训练参数;
  • LightRNN / Hash Embedding / Compositional Code Learning:share or hash 学习到的 vector;本文不学任何 input vector;
  • Character / Byte-level (ByT5, CANINE, Charformer, MEGABYTE):改变 tokenization 粒度,但仍然在更细粒度上学习 input front-end;本文保持 tokenizer 不变,只改 ID 表达方式。

唯一接近的精神先驱是"random fixed feature map"传统:用一个非训练的输入变换作为下游学习的前置。但本文的码不是连续输入的随机投影,而是离散 token identity 的精确最小注入——它的目的是把"identity 注入"与"continuous representation learning"做严格的关注点分离。

7.2 工业落地价值

参数减少 67.1M 听起来不少,但放到现代 LLM 尺度(数十亿到上千亿参数)只是个位数百分比,本身未必是首要的工业卖点。更有价值的也许是几个间接好处:

  • Optimizer state 节省:AdamW 的 m, v moments 是参数量的 2 倍,去掉 67.1M 输入参数意味着省下 ~134M 的 optimizer state(FP32 下约 0.5GB),这对 large-scale pretraining 的 memory footprint 是真实可见的好处;
  • Embedding 表频繁 cache miss / NUMA 跨节点访问问题消失(这一点作者没强调,但对 inference engine 是隐含好处);
  • Tokenizer hot-swap:因为 input encoding 是 deterministic 的,理论上不同 tokenizer 训出来的模型在更换 token-ID 映射时不需要重训 input 表(虽然这跟实际 tokenizer 变更的复杂性还有距离)。

但作者没有报告任何上线 A/B 数据,单作者 + 独立邮箱 + 16-bit vocabulary 的实验规模决定了它仍是一篇 conceptual / scientific 论文,而非工程论文。

7.3 关键开放问题

作者自己在 Discussion 末段指出:fixed-code 微弱优势的机制仍未澄清。可能的解释包括:

  1. 隐式正则化:移除一个大的可训练 input block 减小了模型容量,降低了拟合训练分布特异噪声的能力;
  2. 输入接口参数漂移更小:固定接口在训练中不会随 optimizer 漂移,可能让下游 attention 层更早收敛到稳定的解;
  3. 更好的 identity / representation 解耦:模型被迫在 Transformer stack 内部完成所有连续表征学习,可能导致一种更"clean"的层分工。

确认是哪一种机制需要进一步分析,作者把这列为 future work。

7.4 方法论可扩展性的思考

按 reading-criteria.md 中 "参数量 scaling 时表征能力与序列建模能力能否一起增长" 的视角看:

  • 表征能力:fixed binary code 的容量随 $K = \log_2 V$ 增长。理论上即便 $V$ 增长到 $10^6$,$K$ 也才 20 比特——这恰恰是作者的 claim:"identity 不需要更大的输入容量";
  • 序列建模能力:Transformer stack 仍然按标准方式 scale,没有被固定输入接口限制;
  • 两个组件没有人为耦合:不像 SIF / IAT 那种"先压缩再建模"的两阶段范式,没有 codebook 固化导致下游表征空间被冻结的隐患——这里"固化"的只有 identity 注入,而下游所有 representation learning 都是可训练的 Transformer 在做。

这是一个没有架构瓶颈的方法路线。但同时也要看到,论文的单作者 + 单一规模 + 单一 tokenizer 的实验体量决定了它的 scaling law 行为还需要更大规模的工作来验证。

7.5 总评

这是一篇典型的"narrow but sharp"风格的论文:

  • 不追求 leaderboard SOTA,而是攻击一个被长期默认却很少被实证检验的架构假设;
  • 实验只够支持一个充分性 / 非必要性陈述,作者也明确把自己的 claim 限制在这个范围内;
  • 形式化推理(Appendix D 的 4 个命题)干净直接,提供了"为什么应该 work"的 mathematical underpinning;
  • 写作风格异常克制,明确区分主证据和次要证据,明确不主张统计显著的优越性。

它的价值不在于直接提供一个 production-ready 改进,而在于重新打开了"输入端是否必须是可训练连续向量"这一被关闭已久的设计空间。在当下 LLM 架构创新越来越聚焦于 attention / MoE / context length 的氛围中,这种"回到最基本接口设计"的工作是有相当独特价值的。

可以预见的 follow-up 方向:

  • 把 binary code 接口扩展到 byte-level / character-level / multilingual 设定,看是否仍然 non-degradation;
  • 在更大模型(>10B params)和更长训练(>500B tokens)下验证 scaling 行为;
  • 把 input embedding 的隐式正则化机制做受控分析(例如显式给 learned-input baseline 加 weight decay 等是否能逼近 fixed-code 的表现);
  • 研究 output projection 端是否也能用类似的 fixed-code 思路(作者明确把输出端排除在本文 claim 之外,这本身就提示了一个对应的未解问题)。