加入收藏 | 设为首页 | 会员中心 | 我要投稿 厦门站长网 (https://www.0592zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

在数据科学中需要多少数学技能?

发布时间:2021-04-07 15:14:40 所属栏目:外闻 来源:互联网
导读:例:建立多元回归模型 假设我们现在将要建立一个多元回归模型。在此之前,我们需要问自己以下问题: 我的数据集有多大? 我的特征变量和目标变量是什么? 哪些预测特征与目标变量最相关? 哪些特征很重要? 我应该进行特征缩放吗? 我的数据集应如何划分为训练集

例:建立多元回归模型

假设我们现在将要建立一个多元回归模型。在此之前,我们需要问自己以下问题:

  • 我的数据集有多大?
  • 我的特征变量和目标变量是什么?
  • 哪些预测特征与目标变量最相关?
  • 哪些特征很重要?
  • 我应该进行特征缩放吗?
  • 我的数据集应如何划分为训练集和测试集?
  • 什么是主成分分析(PCA)?
  • 我应该使用PCA删除冗余特征吗?
  • 如何评估我的模型?我应该使用R2_score,平均平方误差(MSE)还是平均绝对误差(MAE)?
  • 如何提高模型的预测能力?
  • 我应该使用正则化回归模型吗?
  • 哪些是回归系数?

哪些是截距?

我应该使用非参数回归模型,例如K近邻回归还是支持向量回归(SVR)?

我的模型中有哪些超参数,如何对其进行微调以获得性能最佳的模型?

没有良好的数学背景,您将无法解决上面提出的问题。最重要的是,在数据科学和机器学习中,数学技能与编程技能同等重要。因此,想成为数据科学家,您必须花时间研究数据科学和机器学习的理论和数学基础。您能否构建可应用于实际问题的可靠且有效的模型,取决于您的数学技能。

现在,让我们讨论数据科学和机器学习所需的一些基本数学技能。

Ⅲ. 数据科学和机器学习的基本数学技能

1、 统计学和概率论

统计学和概率论可以用于特征的可视化、数据预处理、特征变换、数据填补、降维、特征工程、模型评估等环节。以下是您需要熟悉的主题:

  • 均值,中位数,众数,标准差/方差,相关系数,协方差矩阵;
  • 概率分布(二项分布、泊松分布、正态分布),p值,贝叶斯定理(精度、召回率、阳性预测值、阴性预测值、混淆矩阵、ROC曲线);
  • 中心极限定理,R2_score,MSE(均方误差),A / B测试,蒙特卡洛模拟…

2、 多变量微积分

大多数机器学习模型都是使用具有多个特征或预测变量的数据集构建的。因此,熟悉多变量演算对于建立机器学习模型非常重要。以下是您需要熟悉的主题:

  • 多变量函数;
  • 导数和梯度;
  • 阶跃函数,Sigmoid函数,Logit函数,ReLU函数(整流线性单位函数,Rectified Linear Unit);
  • 成本函数;
  • 函数绘图;
  • 函数的最小值和最大值…

3、 线性代数

线性代数是机器学习中最重要的数学技能。当数据集被表示为矩阵,线性代数则可用于数据预处理、数据转换、降维和模型评估。以下是您需要熟悉的主题:

 

大多数机器学习算法通过最小化目标函数来执行预测建模,因而机器学习必须应用于测试数据的权重才能获得预测标签。以下是您需要熟悉的主题:

  • 成本函数/目标函数;
  • 似然函数;
  • 损失函数;
  • 梯度下降算法及其变体(例如,随机梯度下降算法)…

IV.结论

总而言之,我们讨论了数据科学和机器学习所需的基本数学和理论技能,已经有许多免费在线课程教授这些必要的数学技能。想成为数据科学家,请务必牢记,理论基础对于构建高效且可靠的模型至关重要。因此,您应该投入足够的时间来研究每种机器学习算法背后的数学理论。

译者简介:刘思婧,清华大学新闻系研一在读,数据传播方向。文理兼爱,有点小情怀的数据爱好者。希望结识更多不同专业、不同专长的伙伴,拓宽眼界、优化思维、日日自新。

(编辑:厦门站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读