【#第一文档网# 导语】以下是®第一文档网的小编为您整理的《中科普开大数据建立:无监督学习指引》,欢迎阅读!

中科普开大数据建立:无监督学习指引
无监督学习可谓是深度学习的圣杯,其目标是建立可兼容小数据集进行训练的通用系统,即便是很少的数据。
如今深度学习模型往往在大型监督型数据集上训练。所谓监督型数据集,即每条数据都有一个对应的标签。比如流行的ImageNet数据集,有一百万张人为标记的图像。一共有1000个类,每个类有1000张图像。创建这样的数据集需要花费大量的精力,同时也需要很多的时间。现在想象创建一个有1M个类的数据集。试想一下,对有100M数据帧的视频数据集的每一帧进行分类。该任务量简直不可估量。
现在,回想一下你在小时候是如何进行学习的。是的,那时候会有人指导你,你的父母会告诉你这是一个“猫”,但是他们不会在你余生的每一分每一秒都告诉你这是一只“猫”!如今的监督学习也是这样:我一次一次地告诉你,什么是“猫”,也许高达100万次。然后你的深度学习模型就学会了。
理想情况下,我们希望有一个模型,它的表现与我们的大脑非常相似。只需少量的标签便可理解这个多类的世界。这里所说的类,主要是指对象类、动作类、环境类、对象组成类等等。 基本概念
无监督学习研究的主要目标是预训练一个模型(称作“识别”或“编码”)网络,供其他任务使用。编码特征通常能够用到分类任务中:例如在ImageNet上训练会表现出很好的结果,这与监督模型非常接近。
迄今为止,监督模型总是比无监督的预训练模型表现的要好。其主要原因是监督模型对数据集的特性编码的更好。但如果模型运用到其他任务,监督工作是可以减少的。在这方面,希望达到的目标是无监督训练可以提供更一般的特征,用于学习并实现其它任务。 自动编码器(auto-encoders)
该理论主要源于1996年Bruno Olshausen and David Field发表的文章。此文表明,编码理论可应用于视觉皮层感受野。他们发现,我们大脑的主要视觉皮层(V1)使用稀疏原理来创建可以用来重建输入图像的最小基函数子集。
在接下来的文章中,你将看到一个很好的例子来解释类似V1的稀疏滤波器是如何学习的。 栈式自动编码器也会被用到,以贪婪式的方式逐层重复训练。 自动编码器方法也被称为“直接映射”方法。 堆叠无监督层(stacked unsupervised layers) 一种结合k-均值聚类方法去学习多层中过滤器的技术。
我们团队把这种方法称为:聚类学习(Clustering Learning)、聚类连接(Clustering Connections)和卷积聚类(Convolutional Clustering),最近在流行的STL-10无监督数据集上取得很好的效果。
我们在该方向的工作是对Adam Coates和Andrew Ng工作的独立开发。
受限玻尔兹曼机(RBMs)、深度玻尔兹曼机(DBMs)、深度信念网络(DBNs)因很难解决它们配分函数的数值而成为众所周知的难题。因此它们并没有被广泛地用来解决实际问题。 生成模型(generative models)
生成模型,尝试在同一时间创建一个分类(识别器或编码器)网络和一个生成图像(生成模型)模型。这种方法起源于Ian Goodfellow和Yoshua Bengio的开创性工作。
Alec Radford、Luke Metz和Soumith Chintala的DCGAN是一种生成对抗模型,实例化这种模型,能够得到很好的结果。
模型的具体解释请点击这里。下面是系统框架图:
DCGAN识别器的目的是识别输入图像是否真实,或来自数据集,或是生成器生成的伪图。该生成器需要一个随机噪声向量(用1024个数值表示)作为输入,并产生一个图像。 在DCGAN中,生成器网络如下:
本文来源:https://www.dy1993.cn/cMtx.html