深度学习框架如何自动选择最快的算法？Fast Run 让你收获最好的性能！ (3)

日期：2022-03-14 栏目：程序人生浏览：次

--fast-run-algo-policy，指定 Cache 文件的路径，文件中的性能数据会被读入内存，被全局唯一的 PersistentCache 对象持有。进程退出前，PersistentCache 中的性能数据会全部写入该文件。

两个参数可以单独使用，也可以一起使用：

单独使用 --full-run/--fast-run，Profiling 数据保存在内存中。

两者一起使用，文件中的性能数据首先会被读入内存。如果文件为空，所有 MegDNN 算子完成搜参后，性能数据写回文件。如果文件不为空，且某个 MegDNN 算子能从 Cache 中查询到性能数据，则不会进行搜参，余下不能查到性能数据的，则会搜参。这样实现了断点搜参的功能，MegEngine 称之为“续搜“。如果 Fast Run 时程序因为某些原因异常退出，”续搜“能使 Fast Run 在下一次能够连上。“续搜”也能让多个模型的性能数据可以合并在一个 Cache 文件中。如果所有 MegDNN 算子都能从 Cache 中查到性能数据，则搜参不会发生，网络具有最好的性能。

单独使用 --fast-run-algo-policy，文件中的性能数据首先会被读入内存，如果 Cache 中没有记录，不“续搜”，以经验值设置 MegDNN 算子的算法，性能可能不是最优。

在使用 Fast Run 时，可以配合 --verbose 一起使用，程序将详细打印 Fast Run 时的调试信息，包括 MegDNN 算子的名称，输入输出的尺寸信息，设置的算法名称等。如果发现性能不符合预期，比如当加载的模型和 Cache 文件不匹配时，通常会发生“续搜”，造成网络执行时间很长的假象。因此，我们强烈推荐在此时使用 --verbose 参数来观察程序工作是否符合预期。

4.2 算法属性

MegDNN 中某些算法具有独特的属性，会影响向 MegDNN 算子设置算法，当前使用的属性有：

REPRODUCIBLE：具有 REPRODUCIBLE 属性的算法，可保证计算结果比特对齐。Fast Run 中，在从 Cache 中读算法信息时提供了对 REPRODUCIBLE 属性的支持。设置 --reproducible，Fast Run 会从 Cache 中选择性能最好的且具有 REPRODUCIBLE 属性的算法。在 Profiling 阶段，并不区分算法是否 REPRODUCIBLE，这样 Cache 中的算法既有 REPRODUCIBLE 属性的，也有非 REPRODUCIBLE 属性的，具备一定的泛用性。

NAIVE：只有 MegDNN 中最朴素的算法具有 NAIVE 属性。--full-run 和 --fast-run 的区别就在于 --fast-run 通过该属性筛除了运行最慢的朴素算法。

4.3 weight 前处理

有些算法，在计算时需要对数据进行辅助转换。其中，对权重 weight 的转换可以是一次性的，这样可以节省运行时间。例如 Winograd 算法，其权重可以在进行卷积计算之前转好，节约相当一部分运行时的性能开销。MegEngine 在 GraphCommonOptimizeOptions 中提供了 weight_preprocess 选项来支持部署时权重的提前转换功能。一旦设置 weight_preprocess，对于那些 weight 能够提前转换的算法，其性能数据将不会包含权重转换的时间。简单的说，在搜参阶段设置 weight_preprocess，会影响算法的性能数据，从而 Cache 中算法的性能数据排序可能不同。如果 Cache 是在开启 weight 前处理的情况下搜参得到，部署时务必要开启 weight 前处理以获得更好的性能，否则有性能下降的风险。Fast Run 与 weight 前处理不是必需的关系，两者可以分开使用。不过通常情况下，两者结合使用可以获得更好的性能.

4.4 Fast Run 版本

Fast Run 的版本信息以字符串的形式表示在 Cache 的 category 中。Cache 具有兼容性，可以允许不同的版本的 MegEngine 下的搜参结果集合在同一个 Cache 中，Cache 中看到的是不同的 category。但是用户在使用过程，依然需要注意 Fast Run 的版本。一般地，如果 MegDNN 的算法发生了删除或者是属性的变动，Fast Run 的版本信息会发生变化。Fast Run 版本信息变化后，需要重新搜参。

转载注明出处：https://www.heiqu.com/zzwjgx.html

深度学习框架如何自动选择最快的算法？Fast Run 让你收获最好的性能！ (3)

相关推荐