CV-CNN
- AlexNet(2012):深度学习热潮的奠基作
- VGG(2014):使用 3x3 卷积构造更深的网络
- GoogleNet(2014):使用并行架构构造更深的网络
- ResNet(2015):构建深层网络的残差连接
- MobileNet(2017):适合终端设备的小CNN
- EfficientNet(2019):通过架构搜索得到的CNN
- Non-deep networks(2021):让不深的网络也能在ImageNet刷到SOTA
CV-Object Detection
- R-CNN(2014):Two-stage
- Fast R-CNN(2015)
- Faster R-CNN(2015)
- SSD(2016):Single stage
- YOLO(2016)
- Mask R-CNN(2017)
- YOLOv2(2017)
- YOLOv3(2018)
- CenterNet(2019):Anchor free
- DETR(2020):Transformer
CV-Comparative Learning
- InstDisc(2018):提出实例判别和memory bank做对比学习
- CPC(2018):对比预测编码,图像语音文本强化学习全都能做
- InvaSpread(2019):一个编码器的端到端对比学习
- CMC(2019):多视角下的对比学习
- MoCov1(2020):无监督训练
- SimCLRv1(2020):简单的对比学习 (数据增强 + MLP head + 大batch训练久)
- MoCov2(2020):MoCov1 + improvements from SimCLRv1
- SimCLRv2(2020):大的自监督预训练模型很适合做半监督学习
- BYOL(2020):不需要负样本的对比学习
- SWaV(2020):聚类对比学习
- SimSiam(2020):化繁为简的孪生表征学习
- MoCov3(2021):如何更稳定的自监督训练ViT
- DINO(2021):transformer加自监督在视觉
CV-Transformer
- ViT(2020):Transformer杀入CV界
- Swin Transformer(2021):多层次的Vision Transformer
- MLP-Mixer(2021):使用MLP替换self-attention
- MAE(2021):BERT的CV版
CV-Video Understanding
- DeepVideo(2014):提出sports1M数据集,用深度学习做视频理解
- Two-stream(2014):引入光流做时序建模,神经网络首次超越手工特征
- C3D(2014):比较深的3D-CNN做视频理解
- Beyond-short-snippets(2015):尝试使用LSTM
- Convolutional fusion(2016):early fusion来加强时空间建模
- TSN(2017):视频分段建模,bag of tricks in video
- I3D(2017):提出Kinetics数据集,膨胀2D网络到3D,开启3D-CNN时代
- R2+1D(2017):拆分3D卷积核,使3D网络容易优化
- Non-local(2017):引入自注意力做视觉问题
- SlowFast(2018):快慢两支提升效率
- TimeSformer(2021):视频中第一个引入transformer,开启video transformer时代
NLP-Transform
- Transformer:继MLP、CNN、RNN后的第四大类构架
- GPT:使用Transformer解码器做预训练
- BERT:Transformer一统NLP的开始
- GPT-2:更大的 GPT 模型,朝着zero-shot learning迈了一大步
- GPT-3:100倍更大的 GPT-2,few-shot learning效果显著
GAN
- GAN(2014):生成模型的开创工作
- DCGAN(2015):使用CNN的GAN
- pix2pix(2016)
- SRGAN(2016):图片超分辨率
- WGAN(2017):训练更加容易
- CycleGAN(2017)
- StyleGAN(2018)
- StyleGAN2(2019)
- DDPM(2020):Diffusion Models
- Improved DDPM(2021):改进的 DDPM
- Guided Diffusion Models(2021):号称超越 GAN
- StyleGAN3(2021)
- DALL.E 2(2022):CLIP + Diffusion models,文本生成图像新高度
多模态
- CLIP(2021):图片和文本之间的对比学习
- ViLT(2021):第一个摆脱了目标检测的视觉文本模型
- ViLD(2021):CLIP蒸馏帮助开集目标检测
- GLIP(2021):联合目标检测和文本定位
- CLIP4Clip(2021):拿CLIP直接做视频文本retrieval
- ActionCLIP(2021):用多模态对比学习有监督的做视频动作分类
- PointCLIP(2021):3D变2D,巧妙利用CLIP做点云
- LSeg(2022):有监督的开集分割
- GroupViT(2022):只用图像文本对也能无监督做分割
- CLIPasso(2022):CLIP跨界生成简笔画
- DepthCLIP(2022):用文本跨界估计深度