机器人
水下机器人
水下机器人视觉
目标检测 实例分割
人工智能
发展阶段: 逻辑推理 -> 专家系统 -> 机器学习/深度学习
- 人工智能: 研究, 开发用于模拟, 延伸和扩展人的智能的理论, 方法, 技术及应用系统的一门新的技术科学
- 机器学习: 如果一个程序可以在任务T上, 随着经验E增加, 效果P也可以随之增加, 则称这个程序可以从经验中学习
- 深度学习: 基于深度人工神经网络, 自动地将简单的特征组合成更加复杂的特征, 并使用这些组合特征解决问题
推荐算法的改变: 协同过滤 -> 深度学习
人工智能第三次崛起的三大因素:
- 算法
- 大数据(互联网产生的海量大数据)
- 计算力(CPU, GPU, TPU)
cpu和gpu的区别:
- cpu: 核数较少 单核运算速度较快
- gpu: 核数很多 单核运算速度较慢 擅长并行计算 做矩阵运算
- 经典的程序设计: 数据 + 规则 -> 答案
- 机器学习: 数据 + 答案 -> 规则
机器学习是通过学习而不是显式编程的方式, 赋予机器解决问题能力的方法
training: lableled data -> machine learning algorithm
|
v
prediction: data -> learned model -> prediction
机器学习的学习方法:
- 监督学习(通过标签的训练数据集, 如人脸识别)
- 无监督学习(通过无标签数据集自动发掘模式, 如文本自聚类)
- 增强/强化学习(通过反馈或者奖惩罚机制学习, 如游戏, 机器人)
- 半监督学习
以上深度学习都可以做
特征学习: 深度学习的本质之一
input data -> feature engineering(特征工程) -> traditional learning algorithm (costs lots of time)
input data ———————————-> deep learning algorithm
深度学习学到了什么?
图片 -> 底层特征 -> 中层特征 -> 高层特征 -> 分类器 -> …
像素 -> 边缘 -> 部件 -> 轮廓 -> 物体
人工提取特征 -> 简单训练分类器 -> 传统人工智能
学习特征 -> 学习分类器 -> 深度学习
深度学习大事件
- alphago
- 图像识别(IMAGENET大赛)
- 语音系统表现力
- 问答竞赛(自然语言处理)
深度学习应用领域
深度学习应用三大领域:
- 视觉
- 语音处理
- 自然语言处理
- 看图说话
- 风格迁移
- 目标检测
- 普适的目标检测, 不局限于特定问题(如: 人脸检测)
- 是什么 目标类别
- 在哪里 目标位置
- 评价指标
- 精度: 分类精度 位置精度
- 速度
- 智能安防(人脸检测和生理特征识别)
- 疾病检测
- ocr识别
- 无人驾驶
- 物体检测
- 行人检测
- 标志识别
- 速度识别
- 实例分割
- 语音处理
- 自然语言处理
深度学习发展历史
1958 感知机(神经元) -> 1969 感知机被否定 -> 1974 反向传播算法 -> 1995 SVM reigns -> 1998 卷积神经网络(手写数字识别) -> 2006 Restricted Boltzmann Machine -> 2012 imagenet大赛 -> 2012 Google Brain Project on 16k Cores
深度神经网络:
多个感知机形成的网络
$$深度学习 \approx 深度神经网络$$
深度学习的问题:
- 端到端学习: 黑盒子, 不具有逻辑可解释性
- 依赖于大数据, 学习效率低
- 能耗大, 计算成本高
- 信息模态单一, 泛化迁移能力差
对抗样本