TDAN

送入共享的Feature Extractor,分别得到

concat,然后通过一个bottleneck层降低channel数和一个offset generator生成offsets。我认为这个offset generator主要就是将通过bottleneck层之后的feature map的channel数升到Deformable Convolution需要的数量。

将这个offsets作为Deformable Conv层的offset,将作为Deformable Conv的input,计算得到一个wrap过的,记为

再经过一个Reconstruction Layer复原到和同样的形状(我这里没看源码,但是觉得应该是不管是空间尺度还是channel数都和一样),记为concat,送入一个SR Reconstruction Net。作者原文里写了:

虽然deformable alignment有可能捕获运动线索并将对齐,但这种隐式对齐在没有监督的情况下很难学习。

所以我觉得这里是多加Reconstruction Layer这一步的原因。

注意,reference frame的 仅用于计算offset,其信息不会传播到对齐的supporting frame中。

因为没有对aligned LR frame的ground-truth,所以为了训练,他们用reference frame作为label,然后尽量让aligned LR frame接近reference frame:

然后整个的SR reconstruction network的损失函数定义为:

把这两个损失加起来就是最后的损失了:

我觉得这篇论文还是蛮重要的,对于EDVR的PCD模块启发很大。一般的Deformable Conv中的offset都是随机生成的,这里把reference frame和supporting frame的特征图concat之后作为offset的初值的想法很妙~