封面
版权页
前言
第1章 绪论
1.1 深度学习的前世今生
1.2 模型复杂度的提升
1.3 深度学习的名人轶事
第2章 深度学习中的线性代数
2.1 标量、向量、矩阵与张量
2.2 矩阵的运算
2.3 单位矩阵与逆矩阵
2.4 线性相关、生成子空间和范数
2.5 一些特殊类型的矩阵
2.6 特征分解
2.7 奇异值分解
2.8 Moore-Penrose伪逆
2.9 迹运算
2.10 行列式
2.11 例子: 主成分分析
第3章 概率与信息论
3.1 为什么要使用概率
3.2 随机变量
3.3 概率分布
3.4 边缘概率
3.5 条件概率
3.6 条件概率的链式法则
3.7 条件独立性
3.8 期望、方差和协方差
3.9 常用概率分布
3.10 常用函数及性质
3.11 贝叶斯规则
3.12 信息论中的交叉熵
3.13 结构化概率模型
第4章 数值计算
4.1 上溢和下溢
4.2 病态条件
4.3 基于梯度的优化方法
4.4 约束优化
4.5 实例: 线性最小二乘
第5章 机器学习基础
5.1 什么是机器学习算法
5.2 模型性能的度量
5.3 过拟合与欠拟合
5.4 超参数和交叉验证
5.5 最大似然估计
5.6 什么是随机梯度下降
5.7 贝叶斯统计
5.8 监督学习算法
5.9 无监督学习算法
5.10 促使深度学习发展的挑战
第6 章深度前馈网络
6.1 什么是“前馈”
6.2 隐藏层
6.3 输出单元
6.4 万能近似性质
6.5 反向传播
第7 章深度学习中的正则化
7.1 参数范数惩罚
7.2 数据集增强
7.3 噪声鲁棒性
7.4 半监督学习
7.5 多任务学习
7.6 提前终止
7.7 参数绑定和参数共享
7.8 稀疏表示
7.9 Bagging和其他集成方法
7.10 Dropout
7.11 对抗训练
第8 章深度模型中的优化
8.1 学习和纯优化有什么不同
8.2 小批量算法
8.3 基本算法
8.4 参数初始化策略
8.5 自适应学习率算法
8.6 二阶近似方法
8.7 一些优化策略
第9章 卷积神经网络
9.1 卷积运算
9.2 为什么要使用卷积运算
9.3 池化
9.4 基本卷积函数的变体
9.5 卷积核的初始化
第10章循环神经网络
10.1 展开计算图
10.2 循环神经网络
10.3 双向RNN
10.4 基于编码-解码的序列到序列架构
10.5 深度循环网络
10.6 递归神经网络
10.7 长短期记忆网络
10.8 门控循环单元
10.9 截断梯度
第11章 实践方法论
11.1 设计流程
11.2 更多的性能度量方法
11.3 默认的基准模型
11.4 要不要收集更多数据
11.5 超参数的调节
11.6 模型调试的重要性
第12章 应用
12.1 大规模深度学习
12.2 计算机视觉中的预处理
12.3 语音识别
12.4 自然语言处理
12.5 推荐系统
12.6 知识问答系统
第13章 初识大语言模型
13.1 大语言模型的背景
13.2 大语言模型的重要性
13.3 大语言模型的应用场景
13.4 大语言模型和传统方法的区别
第14章 大语言模型原理
14.1 Transformer架构
14.2 预训练
14.3 微调
14.4 自回归训练
14.5 掩码语言模型
第15章常见的大语言模型
15.1 GPT系列模型
15.2 BERT
15.3 XLNet
第16章大语言模型应用——自然语言生成
16.1 自动文本生成
16.2 对话系统和聊天机器人
16.3 代码和技术文档生成
16.4 创意内容生成
16.5 国产优秀大语言模型——文心一言
16.6 国产优秀大语言模型——讯飞星火认知大模型
后记
封底
更新时间:2025-03-27 18:19:49