探索视觉领域的基石:13大类算法模型概览 随着无标注数据的利用和LLM技术的兴起,计算机视觉基础模型的进展日新月异。一篇深入的综述论文,汇集了13个主要类别,共计85种变种,从经典的LeNet到创新的SAM和GPT4,链接在此:[1],揭示了这一领域的深度和广度。
这篇综述论文详细梳理了计算机视觉领域的基础模型,覆盖了13大类算法模型及其85个变种,从经典模型如LeNet、ResNet到近期的SAM、GPT4等,一应俱全。在论文中,作者系统地介绍了每个模型的特点、原理和应用,旨在为读者提供全面而深入的了解。
1、前馈神经网络: 基本构成:由输入层、隐藏层及输出层构成,隐藏层与下一层全连接。 关键特征:加权平均和激活函数。加权平均将前一层神经元的激励值与权重矩阵相乘,激活函数赋予预测任意输出数据的非线性能力。 激活函数:包括Sigmoid、tanh、ReLU等,用于引入非线性特性。
2、反向传播技术减少损失函数的误差,更新权重以优化模型。第 5 章 卷积神经网络 本章介绍适用于图像处理的卷积神经网络(CNN),包含卷积和池化操作,通常接有全连接层。CNN 架构通过批归一化优化,实现图像分类。
3、DNN:存在着一个问题——无法对时间序列上的变化进行建模。然而,样本出现的时间顺序对于自然语言处理、语音识别、手写体识别等应用非常重要。对了适应这种需求,就出现了另一种神经网络结构——循环神经网络RNN。
4、从广义上来说,NN(或是更美的DNN)确实可以认为包含了CNN、RNN这些具体的变种形式。在实际应用中,所谓的深度神经网络DNN,往往融合了多种已知的结构,包括卷积层或是LSTM单元。
1、首先,对于有限状态空间的场景,论文假设了最优策略已知,它探讨了如何通过观察智能体的行为,推断出隐藏的奖励函数,这是逆强化学习的基础任务之一。通过这种方法,我们可以逆向工程出驱动行为的潜在规则。然而,当进入无限状态空间的复杂环境,无论是状态连续还是策略未知,论文提出了更具挑战性的解决方案。
2、正如吴恩达解释的那样,“最值得注意的是,我们的系统自己发现了‘猫’的概念,尽管没有人告诉过它‘猫’是什么。这可以说是机器学习的一个里程碑”。 吴恩达流露出喜悦但却非常冷静,他欣然地讨论着他职业生涯中犯过的错误和遇到的失败,以及他读不懂的论文。他每天穿着一样的牛津蓝的衬衫。
3、笔记按照时间顺序排列,每天都有单独一章,包含会议的turorals、主会论文、workshop等,重点介绍了会议的best paper和气候变化workshop(吴恩达也在这个workshop)。笔记内容包括论文研究者想要解决的问题、解决问题的思路、现场的讨论问答、重点内容的定义、核心方法和贡献。
4、吴恩达在斯坦福大学领导了自动控制直升机项目,开发了世界上最先进的自动控制直升机之一。 吴恩达是100多篇论文的独立作者或合作者,这些论文涵盖了机器学习、机器人技术和相关领域。他在计算机视觉的一些工作被一系列出版物和评论文章所重点引用。
5、完成阅读后,对决策树等基本算法有初步了解,例如算法的输入输出、剪枝策略等。 完成吴恩达在Coursera上的《Machine Learning》课程:选择此课程是因为其讲解清晰,适合初学者。课程学习时要认真做笔记,并参考他人笔记,以补充遗漏的知识点。
6、论文解读:David Abel整理了ICML 2019会议期间涵盖的95篇论文的精华内容,这些论文涉及多个研究领域,包括但不限于机器学习的基础理论、算法创新、应用实践等。笔记中详细记录了论文研究者想要解决的问题、解决问题的思路、以及论文的核心方法和贡献。
1、在LeNet中,一个标准的全连接多层网络用于分类任务,但缺乏自我学习能力的特征提取器,存在以下问题:第一,由于图像较大,通常包含几百个像素,第一层包含上百个隐藏神经元的全连接层会包含成千上万的权重。这大大提高了系统的识别能力,但同时需要大量的训练集,并且存储权重的硬件承载能力受限。
2、LeNet-5,作为经典的卷积神经网络架构,其核心在于其独特的网络结构设计。要深入了解其细节,建议参考1998年LeCun等人在vision.stanford.edu/cs..发布的论文中的示意图。原始的网络设计支持输入尺寸为28x28,通过调整卷积层的kernel参数,以优化模型性能。
3、GoogLeNet,即Inception网络,是2014年ILSVRC竞赛的冠军,由Google团队提出,其灵感源于经典LeNet-5算法。论文《Going Deeper with Convolutions》详细阐述了该网络的架构创新与优化。该网络旨在实现深度学习模型的深度和效率之间的平衡,借鉴了Network-in-Network的思想,并在此基础上进行了改进。