见知AI巡山报告 - 2023年6月

作者：郭晨晨 见知数据科技 (Xencio Data Technology) 机器学习与大数据分析专家。毕业于上海交通大学数学系，曾就职于大型央企参与智慧城市建设，拥有十多年计算机研发及科学计算经验。于2015年加入见知数据，负责见知数据人工智能产品解决方案。

1. 鼠标一点，大象为你转身! AI新技术DragGAN令人惊叹

试想一下，你是一名摄影师，抓拍到了一张大象的照片，但是很可惜，只拍到了一张侧影。你想着，如果能拍到一张正面照就好了！如果我告诉你这不是不可能，甚至很简单就能完成，你是不是会感到惊讶？别惊讶，滑动手指跟着小编一起看下去吧。

利用DragGAN技术，你只需点击几下鼠标就能轻松变身图像处理专家。操作步骤很简单：动动鼠标，先选择操纵点（图中的红点），再选择目标点（图中的蓝点），最后点击界面左侧的‘Start’，你就会发现大象冲着你转过身来了！泰裤辣!

图1：Figure 1 让大象转身

DragGAN不仅可以让大象转身，还能改变人物动物的姿态和表情，调整物体大小，甚至精细编辑选定区域。它甚至可以生成原本不存在的内容，比如让狮子张嘴后补上牙齿，简直是无中生有! 有了它，手中的鼠标就宛如神笔马良手中的画笔，妈妈再也不用担心我不会P图啦！需要注意的是，AI生成的“原本不存在的内容”仅限于符合常识与逻辑的内容。这是什么意思?举例来说，如果狮子张开嘴，AI能自动添加上獠牙，这是因为狮子本来就该有獠牙。AI不会给狮子随机添加上一朵花或其他不合理的物体。且AI添加的獠牙也应像真正的狮子牙那样大而尖。这与人为PS图不同，PS图可以随心所欲地添加各种元素，不受真实性或逻辑性的限制。

图2：让狮子张口，并补充牙齿的细节

图3：改变模特的动作（将叉腰的手放下）

那么DragGAN究竟是如何做到上述这一系列神奇的操作的呢？DragGAN 是基于生成式对抗网络（GAN）的优化算法。生成式对抗网络是图像生成模型中常用的基础架构，由两个神经网络组成：生成模型 (Generator) 和判别模型 (Discriminator)。生成模型和判别器模型互相对抗，互相学习，得到生成式模型，并用这个模型生成图片。但是因为训练中不稳定，在实际应用方面效果并不理想。

2023年，来自Max Planck研究所、MIT CSAIL 和谷歌的研究者们对GAN进行了优化，产生了一种新的图像编辑的方法：DragGAN。DragGAN由两个部分组成：

1. 基于特征的运动监督，驱动图像中的操纵点向目标位置移动，使得图片发生变化；

2. 一种借助判别型 GAN 特征的操纵点跟踪方法，以控制点的位置。从操纵点到目标的过程中，不断参考目标周围的点，使得过程中的损失降低。

当然，任何的工具都有自己的局限性，强大的DragGAN也不例外。作者指出，生成的图片依赖于训练数据多样性的影响，如果希望生成的图片偏离训练数据，那么结果将不尽如人意。此外，从图片中选取的操纵点也是有限制的，最好选择纹理丰富的点。

这么酷的DragGAN目前还在开发阶段，具体的代码将于6月公开。希望技术尽快成熟并面向广大用户。另外，目前DragGAN仅支持对图片的编辑修改，不知道之后会不会支持对于视频进行修改呢？例如将一段视频中的第二分钟-第三分钟画面中的小象的侧面影像变为正面影像。这就加大了难度，不仅需要让小象‘转身’，同时需要小象在某几秒钟内做出慢慢转身的连续图像。一起期待下吧！

2. AI“神眼”一瞥，图像分割不再难

4月5日， Meta AI科研团队发布了一个图像分割的基础模型Segment Anything Model（SAM），它能够在极短的时间内对图片、视频中的任意对象进行分割。Meta AI团队同时发布了目前最大的图像分割数据集SA-1B，包含一千一百万张图片。如果说ChatGPT是问答界的神—什么问题都能回答，那么SAM就可以说是图像分割界的神了—就像模型的名字所说的那样，什么都能进行分割。

Meta在报告中指出，现有的图像分割模型泛用性不高、需要大量人工标注训练数据。例如为了对图片中的鸟类物体进行分割，需要单独训练出一个鸟的模型；为了对图片中的建筑物体进行分割，则需要再单独训练出一个建筑的模型。总之就是每个不同的图片分割任务如果希望分割效果好，就需要单独训练出一个新的模型，缺少一个泛用性高的，适用于不同任务的模型。而SAM的出现解决了这一问题。经过Meta的训练，SAM可以不需要额外的标注数据，经过零次学习，就可应用于不同的领域，甚至是没有训练过的领域。

图4：测试图

图5：抠图结果

未来，SAM可以在更广泛的应用场景中发挥作用，例如视频中精确定位和追踪物体。这项最新成果再次显示了人工智能在计算机视觉领域的进展之快，图像分割是一个典型的任务，需要机器像人类一样对图像内容进行理解和分析。SAM的出现标志着我们又迈进了一大步。同时也预示着AI技术将在更多领域发挥重要作用。

图6：一键分割所有物体

Meta官方发布了SAM在线演示Demo，感兴趣的小伙伴赶快去试试吧。

3. AI赋能，让自闭症儿童重拾快乐童年

人工智能的力量，正在重塑自闭症儿童的未来。

小飞象康复训练中心是一个为自闭症儿童提供训练和指导的专业机构。机构负责人赵星与长期关注自闭症儿童的公益人士关浩参与了腾讯主办的Light·技术公益创造营活动，拟定制作一个‘筛诊康健’体系，旨在帮助自闭症儿童早期诊断和康复治疗，让更多自闭症儿童重拾快乐童年。

赵星和关浩的团队用AI助力，拟定了一个‘筛诊康健’系统：

1. 使用AI替代复杂的人工量表计算，降低诊断测评成本;

2. 将专业老师的丰富经验和方法模型化，为更多自闭症儿童提供个性化治疗方案;

3. 应用语音识别和表情动作追踪等技术，让家长实时了解和参与儿童的康复进展。

目前，该系统的一个功能已完成，团队正积极推进其他两个功能的开发工作。

在第一个阶段中，赵星和关浩的团队用100多万自闭症的相关数据做出了一个诊断模型，能够将填写好的量表做快速的分析，并给出诊断结果。这一‘机器人医生‘可大幅降低单次患者测评成本，减少高达0.8-1万元的诊疗开支。

这是AI技术首次被应用于自闭症儿童的康复治疗，实现了诊断与治疗的智能化，大大降低了成本，让更多自闭症家庭负担得起。未来，期待AI技术能够继续发挥潜力，研发出智能辅助设备，例如智能机器人和手表，帮助自闭症儿童养成规律作息、独立外出和紧急求助的能力，减轻主治医生和护理人员的负担，真正提高自闭症儿童的自理能力。

1. 有手就行？把大象P转身只需拖动鼠标，华人一作DragGAN爆火: https://mp.weixin.qq.com/s/wCvfcmv8OhGqo_fxxZUpKw

2. 他们用AI，救助一群「特殊」的人: https://www.leiphone.com/category/industrynews/EDbigDe79oaLDWz8.html

3. Prompt一键抠图！Meta发布史上首个图像分割基础模型，开创CV新范式: https://mp.weixin.qq.com/s/Iz5fqFbHSpLOfvFGYNzhsQ

4. Segment Anything Model Demo：https://segment-anything.com/demo#

Post Views: 543

见知AI巡山报告 – 2023年6月

1. 鼠标一点，大象为你转身! AI新技术DragGAN令人惊叹

2. AI“神眼”一瞥，图像分割不再难

3. AI赋能，让自闭症儿童重拾快乐童年

Related Posts