如何评价Tensorflow和其它深度学习系统

2025-04-10 00:34:37

推荐回答（1个）

回答1：

个人的一点看法：
1. TensorFlow是采用的DataFlow的数据流模型，不过我不觉得和Dryad有太多相似之处，此外Dryad也不是第一个提出DataFlow模型的地方，要说最早可以参考MIT TaggedToken
machine里面的static dataflow 和dynamic dataflow architecture[2]的资料. 在一个大规模机器学习系统上全面、可靠的支持DataFlow的feature本不是一件容易的事情，但是Tensorflow做到这一点，支持control_dependence, merge, condition,for-loop/while-loop, iteration。1. 就像LSTM的unrolling，原来需要predefine unroll，现在用for-loop去做展开(内部维持状态的变化) 2. 还有比如一些算法需要对不同的input example做不同的训练(不同的gradient，更新不一样的variables)，以前需要hack很多东西(至少在DistBelif上是)，现在只需要一个ConditionOp就解决了。3. 比如不同的variables用不同的optimizer，SGD/AdaGrad/FTRL/Momentum等。有了ControlFlow的支持，tensorflow graph更像是一种语言的抽象(variables, tensors, controlflow, compile[这个是指会rewrite整个graph, send/recv node, un-reference, graph partition, dynamic placement], parallelism，functional programming等)，从这个角度讲还是有不少新东西在里面。

2. 是否用Dataflow和BSP并无直接对应关系，Dataflow只是tensor/token的流动，怎么 schedule和控制流动是别的部分的事情(session 如何drive)。事实上，Tensorflow提供的灵活性用户很容易在上层做BSP(如果你非常喜欢这样做的话，这种模型最大的缺点是fault tolerance很难做)，SSP(如果非要把这个概念引入的话) 或者parameter server的结构(事实上我从来不认为这是一种通用的结构，只是ps被centralized起来存有状态的variables而已, 5年前的DistBelief就是这种架构)，有了这个框架的抽象，然后进一步你可以做Synchronous or Asynchronous training。所以说Dataflow只能做BSP，这个是很没有缘由的。

3. 数据表示成tensor/token，单单这一点非要说这个有多少的创新确实也谈不上。不过基于tensor的每一个single op怎么做实现就有考究了，从Eigen开始到每一个kernels op基本都有micro-benchmark来保证单个op的performance达到最优，既然是kernel级的tensorflow的框架支持用户可以随便扩展GPU、CPU甚至即使是CPU的可以针对不同的指令级做优化和定制。当然任何事情有得就有失，大的系统的设计本身就是trade-off，比如你本来所有的东西揉在一起操作指针、inplace内存读写就可以，但现在抽象成多个各个粒度的operators，operators之间读写难免有很多overhead(当然graph rewrite已经最大限度的避免)。所以概括而言TensorFlow采用(目标)的设计其实是是production级的performance/成熟度和research flexibility的trade-off。从Google内部的各种产品线(Search/inbox/Photo等)的使用看，这个系统无论从各个方面都是经受住了考验(performance/scalability/flexibility/usability等)。Ps: TensorFlow绝不是只能做deep learning, shallow/wide model 以及传统的ML都可以基于这个系统来做(当然一些operators并不现成，需要去实现)。