图像识别和分割
分割
语义分割
只将像素进行分割并贴上对应的分类标签。
Idea-1
sliding windows,利用滑动窗口来对个像素进行分类,计算量太大
idea-2
全连接卷积神经网络,可以生成一个CxHxW的张量,对每个像素进行评分,数据集获取昂贵且困难。并且模型训练代价很高。
idea-3
不采用全连接(同尺寸)卷积神经网络,而是采用downsampling和upsampling,在中间层可以用池化或者跨卷积来降低清晰度,但是可以让网络建立的很深。
upsampling
去池化(Unpooling)
Max Unpooling
将池化层和去池化层相对应,其最大元素的相应位置将会被记录。
转置卷积
正常卷积和跨卷积(可以进行downsampling)并且可以学习参数进行下采样
转置卷积
在进行转置卷积时,将每个元素(标量)乘以过滤器(卷积核),然后将加权后的卷积核叠加于新的输出。
sample:
卷积矩阵化
$44input <—> 44output$
$44input <—>22output$
分类和定位
定位一般使用回归损失函数。
识别
固定几类对象,再输入图片之后将识别图中对象框起来并预测该对象的从属类别。
输入图片的包含对象数量是不确定的。
候选区域方法(Region Proposals)
将输入的图像划分为若干(很多)区域,在应用卷积神经网络对其进行分类。
R-CNN 效率低
Fast R-CNN 不用事先确定候选区而是通过一个卷积神经网络生成特征映射,在特征映射上通过固定函数像素划分确定候选区
Faster R-CNN在确定备选区时自己进行区域选择网络的训练
Detection without Proposals
YOLO(You Only Look Once)/SSD(Single Shot Detection)
利用回归,将输入图片划分为网格。 然后预测每个基本的方框的类别权重以及距离对象的信息。
目标分割
两个分支,一个分支进行分类,一个分支进行类似语义分割确定对象的区域。
DeepDream&Feature Inversion
DeepDream:放大存在的特征
Feature Inversion:特征反演
纹理拼接&风格迁移
Gram Matrix
传统风格迁移会消耗大量的资源
Fast Style Transfer