精华好帖回顾
· 闲聊新加坡 -新加坡的交通 459楼 (2011-6-7) cygrace	· 我最喜爱的 TOP5 （6男6女＋超级电影音乐，已经更新） (2008-2-19) steveking
· 刚出炉的纸杯小蛋糕 (2008-6-11) 紫雪花	· 2024年秋，九州环岛，日本海吃蟹（更新おりはし旅館） (2024-11-29) shine_on

查看: 5794|回复: 2

人工智能的女神 [复制链接]

istoresys

草鞋族

发表于 2017-8-28 08:29 |显示全部楼层

此文章由 istoresys 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 istoresys 所有！转贴必须注明作者、出处和本声明，并保持内容完整

本帖最后由 istoresys 于 2017-8-28 07:32 编辑

期间，李佳团队的 ACM 论文 Multi-view face detection using deep convolutional neural networks 提出了一个新的多角度面部检测方法 Deep Dense Face Detector（DDFD），这个方法不需要标注，单个基于 CNN 的模型就可以实现多角度检测面部，比当前最新的方法方便很多。

2016 年 4 月份，Snap 又推出了一种新功能 3D stickers，用户可以将 emoji 贴到视频中任何一个目标物体上，emoji 还可以一直跟踪移动的目标物体，技术也出自李佳团队。

担任 Snapchat 研究负责人期间，李佳还担任了 2016 CVPR 产业关系（Industrial Relationship）主席，以及 Springer 的 International Journal of Computer Graphics 的计算机副主编。

二

技术融入产品固然重要，但是研究成果也需要肥沃的土壤。

1998 年，贝尔实验室，LeCun 首次将 CNN 用于实践，打造出一个可以识别手写数字的系统 LeNet5。不过，后来一段时期，模型没能火起来。20 世纪 90 年代末，神经网络和反向传播被机器学习社区大量遗弃，同时也被计算机视觉和语音识别领域忽略。人们普遍认为，学习有用的、多层级的、几乎不靠先验知识的特征提取器并不现实可行。此时，李佳正从重庆一所中学进入中科大自动化系学习。

2006 年，Hinton 在深层神经网络训练上取得了突破，向学界了展示了深度学习的可靠性。他发表在 Science 上的 Reducing the Dimensionality of Data with Neural Networks 成为深度学习史上一个里程碑。此时，李佳已经在美国跟随李飞飞从事计算机视觉学习和研究。

这些研究人员引入无监督学习程序——无需标记数据便可创建特征检测器层。各层特征检测器的学习目标便是在下一层重构或模拟特征检测器（或原始输入）的活动。利用这种重构学习目标来「预训练（pre-training）」几层复杂度递增的特征检测器，深层网络的权重可以被初始化为合理值。接着，最终层的输出单元可被添加到网络顶端，整个深度系统可被微调至使用标准的反向传播。在识别手写数字或检测行人时，特别是当标记的数据量非常有限的时候，这一程序非常有效。

深度学习正值爆发前夜，剩下要做的就是让世人看到深度学习的实际效果。但是，又遇到数据集这个老问题。

早在 1986 年，Rumelhart、Hinton 等人就在 Nature 上发表 Learning Internal Representations by Error Propagation，将反向传播算法用于训练神经网络，使得神经网络的训练变得简单可行。但是，由于训练数据集规模太小，加上计算资源有限，训练一个较小的网络也需要很长的时间。与其它模型相比，在识别准确率上也没有明显优势，更多的学者更青睐浅层机器学习模型，比如支持向量机、Boosting。

幸运的是，与二十年前不同。2000 年以来，互联网开始大量产生各种各样的图片数据。大规模数据集也相伴而生，这为通过机器学习的方法来做计算机视觉提供了土壤。2007 年，在普林斯顿大学，李飞飞等研究人员开始着手一项庞大的任务。他们通过众包的方式，标注了 1400 万张图片，分了大概 2 万多个类别，这些类别包罗万物，比如像动物，里边可能分为鸟类、鱼类等；植物，里面可能会分为树和花。他们希望提供一个数据集，为计算机视觉算法提供一个数据土壤，让未来的机器能够认识世界上一切物品。

李佳是这个项目的主要参与者。2009 年，在斯坦福大学读博士期间，李佳以第四作者发表了论文 ImageNet: A large-scale hierarchical image database，被 CVPR 2009 接收。论文开创了迄今为止被应用最广泛的图像数据集 ImageNet，它也是全球最大的图像识别数据库。这篇论文也是李佳本人（到目前为止）影响力最大、引用率最高的论文。

2012 年，ImageNet 遇见深度学习，结果几乎重新定义了计算机视觉研究。这一年，Hinton 和学生 Alex Krizhevsky 参加了 ImageNet。在此之前，卷积神经网络在很大程度上并未获得主流计算机视觉和机器学习团体青睐。Alex Krizhevsky 用 GPU 做出一个 Deep Learning 模型，摘取 ILSVRC 2012 桂冠，在 ImageNet 上，效果大幅度超过传统方法，从传统的 70% 多提升到 80% 多。这个 Deep Learning 模型就是 AlexNet。AlexNet 的突破，除了得益于 GPU 和算法改进，大量数据也功不可没，Deep Learning 领域应该感谢 ImageNet。在 AlexNet 获得冠军后，第二年 ImageNet ILSVRC 2013 大赛上，排名前 20 的小组使用的都是深度学习技术。如今，卷积神经网络几乎覆盖所有识别和检测任务。

李佳的领英中写着这样一句话「人工智能民主化（Democratize AI）」，或许为她在数据集建设方面的工作做了最好的总结。正如李飞飞所说，数据是民主化的另一部分，像人类一样，人工智能需要大量数据为自我发展提供洞见。因此，数据集是人工智能需要克服的最大障碍中的一个。

三

当被问及如何评价 Visual Genome 时，李佳说「这是升级版的 ImageNet。」数据集的搭建，往往包含着参与者对所处领域现状和未来的思考。

2010 年到 2017 年，计算机视觉研究的主要进步发生在感知领域，比如物体识别、图像标注、物体检测等，我们也有了应用产品，比如谷歌照片、行人检测系统等。接下来，更重要的课题是认知方面。如果说 ImageNet 是参与者对 2016 年之前深度学习研究状态的思考和判断，那么，接下来计算机视觉的研究方向是什么？