华为天才少年谢凌曦：关于视觉识别领域发展的个人观点！-聚展

计算机视觉识别领域的发展如何？华为天才少年谢凌曦分享了万字长文，阐述了个人对其的看法。

最近，我参加了几个高强度的学术活动，包括CCF计算机视觉专委会的闭门研讨会和VALSE线下大会。经过与其他学者的交流，我产生了许多想法，千头万绪，便希望把它们整理下来，供自己和同行们参考。当然，受限于个人的水平和研究范围，文章中一定会存在许多不准确甚至错误的地方，当然也不可能覆盖所有重要的研究方向。我期待与有兴趣的学者们进行交流，以充实这些观点，更好地探讨未来发展方向。

在这篇文章中，我将会着重分析计算机视觉领域，特别是视觉感知（即识别）方向所面临的困难和潜在的研究方向。相较于针对具体算法的细节改进，我更希望探讨当前算法（尤其是基于深度学习的预训练+微调范式）的局限性和瓶颈，并且由此得出初步的发展性结论，包括哪些问题是重要的、哪些问题是不重要的、哪些方向值得推进、哪些方向的性价比较低等。

在开始之前，我先画出如下思维导图。为了寻找合适的切入点，我将从计算机视觉和自然语言处理（人工智能中两个最受的研究方向）的区别开始谈起，引出图像信号的三个根本性质：信息稀疏性、域间差异性、无限粒度性，并将它们与几个重要的研究方向相对应。这样，我们就能更好地了解每个研究方向所处的状态：它已经解决了哪些问题、还有哪些重要的问题没有解决，然后针对性地分析今后的发展趋势。

CV的三大基本困难和对应研究方向一直以来，NLP都走在CV的前面。不论是深度神经网络超越手工方法，还是预训练大模型开始出现大一统的趋势，这些事情都先发生在NLP领域，并在不久之后被搬运到了CV领域。这里的本质原因是NLP的起点更高：自然语言的基础单元是单词，而图像的基础单元是像素；前者具有天然的语义信息，而后者未必能够表达语义。从根本上说，自然语言是人类创造出来，用于存储知识和交流信息的载体，所以必然具有高效和信息密度高的特性；而图像则是人类通过各种传感器捕捉的光学信号，它能够客观地反映真实情况，但相应地就不具有强语义，且信息密度可能很低。

从另一个角度看，图像空间比文本空间要大得多，空间的结构也要复杂得多。这就意味着，如果希望在空间中采样大量样本，并且用这些数据来表征整个空间的分布，采样的图像数据就要比采样的文本数据大许多个数量级。顺带一提，这也是为什么自然语言预训练模型比视觉预训练模型用得更好的本质原因——我们在后面还会提到这一点。

根据上述分析，我们已经通过CV和NLP的差别，引出了CV的第一个基本困难，即语义稀疏性。而另外两个困难，域间差异性和无限粒度性，也多少与上述本质差别相关。正是由于图像采样时没有考虑到语义，因而在采样不同域（即不同分布，如白天和黑夜、晴天和雨天等场景）时，采样结果（即图像像素）与域特性强相关，导致了域间差异性。同时，由于图像的基本语义单元很难定义（而文本很容易定义），且图像所表达的信息丰富多样，使得人类能够从图像中获取近乎无限精细的语义信息，远远超出当前CV领域任何一种评价指标所定义的能力，这就是无限粒度性。

关于无限粒度性，我曾经写过一篇文章，专门讨论这个问题。https://zhuanlan.zhihu.com/p/376145664

以上述三大基本困难为牵引，我们将业界近年来的研究方向总结如下：

语义稀疏性：解决方案为构建高效计算模型（神经网络）和视觉预训练。此处的主要逻辑在于，想要提升数据的信息密度，就必须假设数据的非均匀分布（信息论）并对其建模（即学习数据的先验分布）。目前，最为高效的建模方式有两类，一类是通过神经网络架构设计，来捕捉数据无关的先验分布（例如卷积模块对应于图像数据的局部性先验、transformer模块对应于图像数据的注意力先验）；一类是通过在大规模数据上的预训练，来捕捉数据相关的先验分布。这两个研究方向，也是视觉识别领域最为基础、受到最多的研究方向。
域间差异性：解决方案为数据高效的微调算法。根据以上分析，网络体量越大、预训练数据集体量越大，计算模型中存储的先验就越强。然而，当预训练域和目标域的数据分布具有较大差异时，这种强先验反而会带来坏处，因为信息论告诉我们：提升某些部分（预训练域）的信息密度，就一定会降低其他部分（预训练域没有包含的部分，即预训练过程中认为不重要的部分）的信息密度。现实中，目标域很可能部分或者全部落在没有包含的部分，导致直接迁移预训练模型的效果很差（即过拟合）。此时，就需要通过在目标域进行微调来适应新的数据分布。考虑到目标域的数据体量往往远小于预训练域，因而数据高效是必不可少的假设。此外，从实用的角度看，模型必须能够适应随时变化的域，因而终身学习是必须。
无限粒度性：解决方案为开放域识别算法。无限粒度性包含开放域特性，是更高的追求目标。这个方向的研究还很初步，特别是业界还没有能被普遍接受的开放域识别数据集和评价指标。这里最本质的问题之一，是如何向视觉识别中引入开放域能力。可喜的是，随着跨模态预训练方法的涌现（特别是2021年的CLIP），自然语言越来越接近成为开放域识别的牵引器，我相信这会是未来2-3年的主流方向。然而，我并不赞成在追求开放域识别的过程中，涌现出的各种zero-shot识别任务。我认为zero-shot本身是一个伪命题，世界上并不存在也不需要zero-shot识别方法。现有的zero-shot任务，都是使用不同方法，将信息泄露给算法，而泄露方式的千差万别，导致不同方法之间难以进行公平对比。在这个方向上，我提出了一种被称为按需视觉识别的方法，以进一步揭示、探索视觉识别的无限粒度性。

这里需要做一个补充说明。由于数据空间大小和结构复杂度的差异，至少到目前为止，CV领域还不能通过预训练模型直接解决域间差异的问题，但是NLP领域已经接近了这一点。因此，我们看到了NLP学者们利用prompt-based方法统一了几十上百种下游任务，但是同样的事情在CV领域并没有发生。另外，在NLP中提出来的scaling law，其本质在于使用更大的模型来过拟合预训练数据集。也就是说，对于NLP来说，过拟合已经不再是一个问题，因为预训练数据集配合小型prompt已经足以表征整个语义空间的分布。但是，CV领域还没有做到这一点，因此还需要考虑域迁移，而域迁移的核心在于避免过拟合。也就是说，在接下来2-3年，CV和NLP的研究重心会有很大的差异，因而将任何一个方向的思维模式生搬硬套在另一个方向上，都是很危险的。

以下简要分析各个研究方向