Weekly20241013
Weekly 20241013
这周学了什么
看了两篇论文,第二篇还没看完
Few-Shot Object Detection: A Comprehensive Survey
https://ieeexplore.ieee.org/document/10103630#full-text-header
A Survey of Visual Transformers
https://ieeexplore.ieee.org/document/10088164
每篇论文写了什么,用了什么方法,处理了什么问题,有什么收获
本周第一篇:Few-Shot Object Detection: A Comprehensive Survey
是少量样本方面的文章。大概意思就是现在训练用的样本量很少,只能通过有限的样本来训练,检测出新的目标。
文章把FSOD分成元学习和迁移学习,元学习又分为双分支和单分支。
从文章中得知,双分支学习比单分支学习在少量样本目标检测中要更为流行,并且其发展和派生比较多。
对于迁移学习,其流程比上述的更加简单:
Transfer learning approaches have a much simpler training pipeline, as they do not require complex episodic training as in meta learning.
文章总结了当前最有前途的研究方向,包括:
- 注意力机制:通过将注意力机制引入FSOD模型来提高对新类别的检测性能。
- 多样性增强:通过从现有数据中人为修改,增加新类别训练样本的多样性。
- 跨领域知识迁移:利用基础类别和新类别之间的语义关系来提升新类别的检测效果。
上周的文章
上周两篇文章分别是对目标识别领域的总体研究和样本中的噪声标签的处理
第一篇文章:Object Detection With Deep Learning: A Review
这篇文章基本上阐述了当前的目标识别的主流研究方法和当前发展。
主要有两种,分别是使用深度学习的方法和线性回归的方法。两者各有优劣。对于前者,现在有R-CNN,还有其他改进型号Fasr R-CNN, Faster R-CNN等等,后者则有YOLO和SSD。
这两种方法侧重点有所不同,前者更加针对准确度,后者则偏向实时性。
除开上面的通用目标检测,文章还阐述了别的检测应用,有突出目标检测,人脸检测和行人检测。其中部分深度学习的模型在经过简单修改之后就可以被应用。
In addition, some generic detection frameworks are extended to face detection with different modifications, e.g., Faster R-CNN [30], [172], [173].
在行人检测方面,似乎并没有很有效的检测方法,主要是行人和背景之间的区分问题
最后,文章提出了三个待解决的问题。
第一是小物体检测,有三点:Multitask Joint Optimization and Multimodal Information Fusion, *Scale Adaption, Spatial Correlations and Contextual Modeling.*第二是针对实时性优化,分别可以从级联网络,非监管和弱监管学习以及网络优化入手。第三点则是扩展到三维目标识别以适应空间上的需求,比如三维目标识别和视频图像识别。
第二篇文章:Learning From Noisy Labels With Deep Neural Networks: A Survey
大部分都没看懂
在使用数据集训练的时候,并不是所有数据都能被正确标记,比如有的就会被错误标记或者被恶意标记了。这些噪音标签会导致模型的性能下降。
当然,文章提出了各种增加稳健性的方法:
According to our comprehensive survey, the robustness of deep learning can be enhanced in numerous approaches [16], [25], [68]–[74]. Fig. 3 shows an overview of recent research directions conducted by the machine learning community. All of them (i.e., Sections III-A–III-E) focused on making a supervised learning process more robust to label noise.
我也陈列如下:稳健架构,稳健真则化,稳健损失函数,损失调整和样本选择。然后文章就开始按调按理的陈述各个章节的问题,还写了一堆数学公式*(我基本上都没看懂)*
文章后面也提出了一些未来的研究方向,我也陈列一下:
- Instance-Dependent Label Noise 实例相关标签噪音
- Multilabel Data With Label Noise 带有标签噪音的多标签数据
- Class Imbalance Data With Label Noise 带有标签噪音的分类不平衡数据
- Robust and Fair Training 稳健和公平训练
- Connection With Input Perturbation 与输入扰动的连接
- Efficient Learning Pipeline 高效学习管道
其他的东西
在看论文的时候,有很多东西就算是翻译成中文我也不一定能懂。上周的第二篇论文看的我是一头雾水,基本上算是没看懂。我在想是不是应该去学点别的,然后我就找到了
https://github.com/shunliz/Machine-Learning 其网页版的链接是https://shunliz.gitbooks.io/machine-learning/content/