主页 > imtoken钱包苹果版用不了 > 量化分享 | CFA定量内容阅读笔记
量化分享 | CFA定量内容阅读笔记
AQF量化分享丨本文是特许金融分析师CFA知识体系中量化章节的阅读笔记。内容如下:一、什么是机器学习;二、模型评估;三、监督学习;四、无监督学习;五、深度学习和强化学习~
一、什么是机器学习
机器学习与统计方法:
相同:从数据中提取信息的方法
不同:统计方差对数据分布做假设,机器学习不对数据做假设,直接从数据中提取信息
优点:机器学习可以捕获高度非线性的映射
缺点:机器学习的结果往往难以解释,模型容易出现过拟合问题
机器学习算法分类:
监督学习算法:
需要使用标记数据(标记数据,已知输出结果的样本数据)建立输入变量(特征)和输出变量(预测目标)之间的映射关系。利用样本数据建立映射关系的过程称为模型训练。训练后的模型可用于预测新数据生成的输出(新数据的标签)。
问题类别:
分类问题:输出变量是离散变量
回归问题:输出变量是连续变量
常用算法:
惩罚回归
支持向量机
k-最近邻
分类和回归树
综合学习
随机森林
无监督学习算法:
尝试使用未标记的数据找到数据的内部结构,即输入变量没有已知的对应输出结果
问题分类:降维问题:减少特征数量量化交易决策模型,聚类问题
常用算法:主成分分析、k-means聚类、层次聚类
强化学习:
模型通过与其生成的数据交互来学习和优化
选型决策过程:
二、模型评估
数据划分:
训练数据:训练模型
验证数据:训练模型的测试和参数调整
测试数据:测试模型在新数据上的表现
泛化和过拟合:
学习曲线:训练样本数与误差的关系
曲线拟合:
模型复杂度与误差的关系
偏差曲线与方差曲线相交的点是模型过拟合和欠拟合的平衡点
三、监督学习
惩罚回归
惩罚回归适用于解决具有大量特征以及它们之间可能存在相关性的问题
线性回归通过最小化模型的残差平方和来获得最优的系数组合。惩罚回归在残差平方和的基础上增加了一个惩罚项。惩罚项的值随着模型参数的增加而增加,因此贡献大的参数最终会出现在模型中
常用的惩罚回归:LASSO(最小绝对收缩和选择算子)回归惩罚如下,其中 lambda > 0:
注:在惩罚回归中,惩罚项仅在模型训练过程中使用,模型仅在测试阶段基于残差平方和进行评估
支持向量机:
二元线性分类器
目标是找到可以将数据集分为两类的最优超平面,最优超平面是离所有数据最远的超平面
最优超平面由两组中距离超平面最近的数据确定,这些数据称为支持向量
在现实世界的问题中,数据通常不能被超平面完美地分类。解决不完善分类的方法有两种:
软边距分类:在目标函数(通常是超平面和样本数据之间的距离)中添加一个错误分类的惩罚项
非线性支持向量机算法:可以以增加特征为代价减少误分类样本的数量,即增加模型的复杂度
它适用于低维和中维问题,但不适用于高维问题。它对异常值和特征之间高度相关的问题具有更好的容忍度。
常用于文本分类和文本情感分析
K-最近邻算法(KNN):
思路:根据与待预测数据接近的其他数据的类别确定新数据的属性
非参数算法,即不对数据的分布特征做任何假设
对完全不相关的特征或特征之间的相关性非常敏感,因此需要仔细筛选特征,只保留最有价值的特征
当特征数量相对较少时效果更好
如果超参数 K 的值太小,结果将对局部异常值非常敏感。如果 K 太大,相邻样本的特征会被大量数据的平均值淹没。K值的确定通常会考虑类别的数量和不同类别在数据中的比例。
分类和回归树(CART):
CART 模型的每个节点代表特征和特征值截止点的组合。每个节点上的特征和截止点的选择标准是尽量减少分类误差
当进一步拆分未能显着改善数据集中的分组误差时,停止拆分,节点成为终端节点。
对于分类问题,终端节点数据集的属性由大部分数据的属性决定;对于回归问题,终端节点的数据值由节点数据集的均值决定
CART也是一种非参数算法,即它不对数据分布的特征做任何假设
无限深度的树可以实现对数据的完整分类,但是为了限制过拟合,通常会限制数据的复杂度
限制树的最大深度
限制每个节点的最小样本数
限制节点总数
修剪完全分类的树
同一个特征可以在节点分类规则中出现多次
CART 可以解释特征中非常复杂的依赖关系
模型结果易于理解和解释
集成学习和随机森林:
集成学习:综合来自多个模型的预测,以减少单个模型中的噪声对预测的影响
集成学习的分类:
通过投票组合异构学习算法,例如多数投票分类器,逻辑基础是大数定理,集成模型的有效性取决于各个模型相互独立的假设。
在不同的数据集上训练同构算法,例如引导聚合(装袋):
(1)通过对原始数据集进行带放回抽样,生成n个新的自数据集,对每个子数据集分别训练模型,通过多数投票或投票获得综合模型的预测解决方案结果的平均值
(2)有助于提高模型稳定性并减少过拟合
(3)随机森林是bagging方法生成的一个集成模型,它利用自己的数据集和bagging生成的一些特征训练单棵决策树,通过多数投票得到最终的预测结果。缺点是单棵决策树的损失很容易解释专业
四、无监督学习
主成分分析:
高维特征数据的问题:
难以形象化
特征之间存在相关性
主成分分析通过变换特征的协方差矩阵,将多个相关的特征转化为几个不相关的成分变量。
关键概念:(1)Eigenvector:定义了一个新的互不相关的分量变量,分量变量是当前原始特征的组合(2)Eigenvalue:每个特征变量对应一个eigenvalue ,特征值反映了对应的特征向量能解释的原始数据方差的比例
主成分分析法是对特征值进行排序,选择最大特征值对应的特征向量。
主成分的方向是最小化总投影误差和最大化数据间总离散距离的方向
主成分方向相互垂直,所以没有相关性
选择能解释 85%-95% 总体方差的主成分数
缺点是结果的可解释性差
聚类算法
聚类算法的目标是根据数据之间的相似性对数据进行分组,使组内的数据尽可能相似,组间差异尽可能大。
聚类算法的缺点是聚类结果难以评估
K-means 聚类:
K代表类别数,是算法的超参数,需要在训练前确定
样本数据将根据与每个类别中心的距离比较结果确定。首先随机生成类别中心,在迭代过程中用每个类别内部数据的平均值更新类别中心。
当所有数据所属的类别不再变化时停止迭代(收敛完成)
优点:速度快,可以处理大样本数据
缺点:(1)最终分组受初始类别中心影响,解决方法是随机生成初始位置,多次进行聚类,结合应用经验选择最终模型(2)超参数需要根据主观经验来确定,解决方法是对超参数进行比较和优化,选择最大化组间差异的K值,但最终结果还是主观的,受数据集影响
层次聚类:
通过迭代方法生成层次类别,类别之间存在包含关系
与K-means聚类相比,计算量更大
但分级结果允许研究人员决定他们使用模型的粒度。
算法分类:(1)聚合聚类:比分解聚类更快;从考虑小社区开始,所以更适合需要识别小社区的问题(2)分解聚类:从考虑开始整个数据结构,所以更适合需要大社区识别的问题
通过比较两个类别中所有样本数据之间的直线距离得到类别之间的距离
一种可视化层次聚类的方法:树状图
五、深度学习和强化学习
神经网络:
可用于分类或回归问题,可以是有监督或无监督学习
关键概念:
(1)网络结构:每层包含若干个节点(神经元):输入层、隐藏层、输出层
(2)节点:连接节点的输入数据和输出数据。求和运算:根据不同节点的权重对输入值进行加权求和。激活函数:节点求和结果的非线性映射
(3)权重:不同层级的节点通过权重连接。神经网络训练的目标是找到一个使网络整体误差最小的权重组合
网络层数越多,节点越多,网络结构越复杂,训练需要的数据也越多
可以处理更复杂的问题,容易出现过拟合问题
深度神经网络是具有许多隐藏层的神经网络
强化学习:
强化学习使用未标记的数据
关键概念:代理在尝试不同动作的过程中与环境交互,根据环境的反馈学习经验,
agent:可以认为是一台需要训练的机器
动作:可选动作
环境:代理运行的外部条件
奖励:动作的结果
强化学习的训练过程是一个不断试错的过程
量化金融分析师(AQF,Analyst of Quantitative Finance)是量化金融标准委员会(SCQF)的首席考试认证,是代表量化金融领域的专业级别证书。>>>点击查询AQF证书含金量
课程适合人群:
希望进一步学习Python编程及其在量化投资中的实际应用的具有金融工程/数学背景的学生/工作者;
非金融工程背景的学生/工作者,希望快速成为Quants;
想学习如何系统地做量化策略的金融相关人员;
个人投资者希望系统地学习和掌握量化投资相关的实用技能,从模型开发、回测、策略改进、构建稳定的量化交易体系。
(点击上图了解课程详情)
AQF量化金融分析师核心课程体系:
1、《量化投资基础》
主要涵盖量化投资领域的必备知识,包括:基本面分析、技术分析、量化分析、固定收益、资产组合管理、股权、另类投资等。
2、《Python语言编程基础》
包括Python环境搭建、基础语法、变量类型、基础函数、基础报表、第三方库、金融金融实例等量化交易决策模型,旨在为金融金融专业人士提供最需要的编程方法。
3、《基于Python的经典量化投资策略》
它包含了最著名和最基本的量化交易思想和交易策略。例如:海龟交易模型、物流模型、配对交易模型、波动率扩展模型、Alpha模型、机器学习(随机森林模型、主成分分析)、深度学习(人工神经网络)等。
4、《量化交易系统设计》
旨在学习量化交易系统的具体知识,包括过滤器、进场信号、出场信号、仓位管理等细节,指导学生设计涵盖个人交易理念的量化交易系统。
5、《量化实盘交易》
旨在为解决实际量化交易策略构建过程中的一些问题提供最优解决方案。>>>点击查询AQF相关问题
我们可以用 Python 和量化投资技能做什么?
1、熟悉中国主要金融市场及交易产品的交易机制;
2、熟悉国内外期货交易和股票市场交易的异同及内部运行机制;
3、掌握经典量化交易策略的细节及其背后的交易理念;
4、掌握金融、编程、建模等基础知识,具备量化交易操作能力;
5、具备独立开发新量化交易策略的能力;
6、掌握量化交易模型设计的基本框架,以及风险管理和投资组合理论的实际应用;
7、掌握从战略思考-战略撰写-战略实施的完整量化投资决策流程;具备量化投资实战交易能力。