TensorFlow0.8发布以来受到了大量机器学习领域爱好者的关注,目前其项目在github上的follow人数在同类项目中排名第一。作为google的第一个开源项目,TensorFlow的源码结构较为清晰,相关的代码注释覆盖较全。本文首先从代码结构入手,分析TesnsorFlow的各个模块构成。
根目录结构的相关介绍以下是TensorFlow项目根目录下的文件结构(目前以TensorFlow-0.8为例)
以下是对根目录下的几个核心文件和目录的相关介绍:
目录tensorflow 该目录下存放着tensorflow的核心代码
目录google 该目录下存放着protobuf的相关代码,该目录通过在git clone 命令后添加 --recurse-submodules 可以下载得到。protobuf主要用于tensorflow中的各模块通信。
目录third_party/tools/util 目前这三个目录中的文件较少,还未看出其相关作用,可能会在接下来的项目发展中变得更加完善。
文件configure 该文件用于配置tensorflow的安装环境,运行该文件并完成tensorflow的安装环境配置后,运行bazel build -c opt //tensorflow/cc:tutorials_example_trainer 即可完成代码的编译工作。(注 需要先安装bazel)
由于目录google 的作用仅为提供protobuf的通信支持,当前我们主要对目录tensorflow的相关结构进行分析。
tensorflow目录结构的相关介绍以下是目录tensorflow 下的相关目录和文件
以下是对该目录下的几个重要目录的简单介绍:
目前来看tensorflow中很多模块正处于刚开始起步的阶段,很多逻辑还有待完善(如当前支持的模型较少、很多方法还未实现等)。
本文接下来会对核心目录core 中的文件结构进行简要的介绍。
core目录是tensorflow源码中最核心的一个目录,其代码逻辑主要为C++开发实现。
以下为该目录的代码组织结构
以下是对该目录下的几个主要模块(目录)的功能介绍
目录common_runtime 该目录下包含了tensorflow中session执行的通用逻辑流程。
目录distributed_runtime tensorflow 与分布式相关的执行逻辑。
目录graph tensorflow图相关操作的逻辑。由于tensorflow中的数据计算本质上是一个图状结构的计算流程,该过程中存在将图进行切分并且并行化执行的可能性。该目录下的代码逻辑即为对图数据进行结构化定义并进行拆分的相关内容。
目录framework 该目录下对tensorflow进行计算过程中的通用组件进行了定义和实现。
目录kernels 对tensorflow中各个单步操作的具体实现。 该目录中共有约470个文件,其中414个文件和op相关,该目录下包含了大量的tensorflow中单步操作的实现方式。(如Variable())
目录ops 对kernel/ 下的op进行注册和对外声明。
目录models 实现了几个tensorflow支持的计算模型,该部分代码由python实现。
目录client/public tensorflow对外api的定义和实现
目录util/lib 一些公用的调用方法。
目录protobuf tensorflow下各个模块间进行数据传输的数据结构定义,通过proto进行配置实现。
目录user_ops 用户可进行编写自己的op并添加到该目录。