0%

水下机器人视觉_1_介绍

机器人

水下机器人

水下机器人视觉

目标检测 实例分割

人工智能

发展阶段: 逻辑推理 -> 专家系统 -> 机器学习/深度学习

  • 人工智能: 研究, 开发用于模拟, 延伸和扩展人的智能的理论, 方法, 技术及应用系统的一门新的技术科学
  • 机器学习: 如果一个程序可以在任务T上, 随着经验E增加, 效果P也可以随之增加, 则称这个程序可以从经验中学习
  • 深度学习: 基于深度人工神经网络, 自动地将简单的特征组合成更加复杂的特征, 并使用这些组合特征解决问题

推荐算法的改变: 协同过滤 -> 深度学习

人工智能第三次崛起的三大因素:

  • 算法
  • 大数据(互联网产生的海量大数据)
  • 计算力(CPU, GPU, TPU)

cpu和gpu的区别:

  • cpu: 核数较少 单核运算速度较快
  • gpu: 核数很多 单核运算速度较慢 擅长并行计算 做矩阵运算
  • 经典的程序设计: 数据 + 规则 -> 答案
  • 机器学习: 数据 + 答案 -> 规则

机器学习是通过学习而不是显式编程的方式, 赋予机器解决问题能力的方法
training: lableled data -> machine learning algorithm
                                                                      |
                                                                      v
prediction:             data -> learned model -> prediction

机器学习的学习方法:

  • 监督学习(通过标签的训练数据集, 如人脸识别)
  • 无监督学习(通过无标签数据集自动发掘模式, 如文本自聚类)
  • 增强/强化学习(通过反馈或者奖惩罚机制学习, 如游戏, 机器人)
  • 半监督学习
    以上深度学习都可以做

特征学习: 深度学习的本质之一
input data -> feature engineering(特征工程) -> traditional learning algorithm (costs lots of time)
input data ———————————-> deep learning algorithm

深度学习学到了什么?
图片 -> 底层特征 -> 中层特征 -> 高层特征 -> 分类器 -> …
像素 -> 边缘 -> 部件 -> 轮廓 -> 物体

人工提取特征 -> 简单训练分类器 -> 传统人工智能
学习特征 -> 学习分类器 -> 深度学习

深度学习大事件

  • alphago
  • 图像识别(IMAGENET大赛)
  • 语音系统表现力
  • 问答竞赛(自然语言处理)

深度学习应用领域

深度学习应用三大领域:

  • 视觉
  • 语音处理
  • 自然语言处理
  • 看图说话
  • 风格迁移
  • 目标检测
    • 普适的目标检测, 不局限于特定问题(如: 人脸检测)
      • 是什么 目标类别
      • 在哪里 目标位置
    • 评价指标
      • 精度: 分类精度 位置精度
      • 速度
  • 智能安防(人脸检测和生理特征识别)
  • 疾病检测
  • ocr识别
  • 无人驾驶
    • 物体检测
    • 行人检测
    • 标志识别
    • 速度识别
  • 实例分割
  • 语音处理
  • 自然语言处理

深度学习发展历史

1958 感知机(神经元) -> 1969 感知机被否定 -> 1974 反向传播算法 -> 1995 SVM reigns -> 1998 卷积神经网络(手写数字识别) -> 2006 Restricted Boltzmann Machine -> 2012 imagenet大赛 -> 2012 Google Brain Project on 16k Cores

深度神经网络:
多个感知机形成的网络

$$深度学习 \approx 深度神经网络$$

深度学习的问题:

  • 端到端学习: 黑盒子, 不具有逻辑可解释性
  • 依赖于大数据, 学习效率低
  • 能耗大, 计算成本高
  • 信息模态单一, 泛化迁移能力差

对抗样本

Thank you for your reward !