4. 整体设计

4.1. 分层

TPU-MLIR将网络模型的编译过程分两层处理:

整体的流程如(TPU-MLIR整体流程)图中所示, 通过Pass将模型逐渐转换成最终的指令, 这里具体说明Top层和Tpu层每个Pass做的什么功能。后面章节会对每个Pass的关键点做详细说明。

shape-infer: 做shape推导, 包括常量折叠。对于shape不确定的op, 在这里确定shape。
canonicalize: 与具体op有关的图优化, 比如relu合并到conv、shape合并等等。
extra-optimize: 额外的pattern实现, 比如求FLOPs、去除无效输出等等。
chip-assign: 配置chip, 如bm1684x或者cv183x等等; 并根据chip对top层进行调整, 比如cv18xx将输入全部调整为F32。
import-calibration-table: 按照calibration table, 给每个op插入min和max, 用于后续量化; 对应对称量化则插入threshold
chip-top-optimize: 与chip相关的top层算子优化, 这是一个妥协, 有些top算子与chip具有相关性
convert-top-to-tpu: 将top层下层到tpu层; 如果是浮点类型(F32/F16/BF16), top层op基本上直接转换成相应的tpu层op即可; 如果是INT8类型, 则需要量化转换

还有一些可选的pass没有再图中标出来, 用于实现特定功能。