人工智能数学基础

leiatrundle2 计算机知识 1 次浏览 没有评论

一、数据描述

1、概率与频率

频率的定义:在n次重复试验,事件A发生了m次(0<=m<=n),m叫做事件A的频数,事件A的频数在试验的总次数中的比例M/n,叫做事件A出现的频率。频率的范围:[0,1]。记做P(A)

概率的定义:随机事件A发生可能性大小的度量(非负实数,<=1),称为事件A发生的概率,记做P(A)。在大量重复进行同一试验时,事件A发生的频率m(A)/n总是接近于某个数,在它附近摆动,这个常数就是事件A的概率。因此只要n相当大,概率是可以通过频率来测量的,或者说频率是概率的一个近似。因此:事件A的概率P(A)是对事件A发生可能性大小的一个度量,它是一个确定的数值,其值大于0小于1。与试验次数n无关。事件A的频率m(A)/n是一个与试验次数n有关的数,它总是在概率P(A)附近摆动。当试验
次数n相当大的时候,频率可以作为概率的一个近似,或者说概率是可以通过频率来测量。

2、均值、中位数、众数、四分位数

均值:大多数时候所说的平均数,它的定义如下:均值=  所有数值的总和 / 所有数值的个数总和

中位数:分类数据组的中间值(如果数据个数为偶数,则是两个中间数值和的一半)

众数:数据组中出现次数最多的值(或者一组值)

四分位数(Quartile)是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数

第一四分位数 (Q1),又称”下四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。

第二四分位数 (Q2),又称”中位数”,等于该样本中所有数值由小到大排列后第50%的数字。

第三四分位数 (Q3),又称”上四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距(InterQuartile
 Range, IQR)。

箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用,常见于品质管理。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比 较。箱线图的绘制方法是:先找出一组数据的最大值、最小值、中位数和两个四分位数;然后, 连接两个四分位数画出箱子;再将最大值和最小值与箱子相连接,中位数在箱子中间。

3、误差(error)、偏差(bias)和方差(variance)

error=bias+variance(忽略噪音),Error反映的是整个模型的准确度,Bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度,Variance反映的是模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性。

机器学习:

偏差:度量学习算法的期望预测与真实结果的偏离程度,也叫拟合能力。
方差:度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动造成的影响。

总体期望:总体中所有观察值的总和除以个体总数所得得商称为总体期望值,即“总体期望值”

为“总体的算术平均值”,总体期望值能反映总体分布中大量数据向某一方向中的情况,利用总体期望值

可以对两个总体的差异进行比较。

 

 

 

内容如有侵犯你的权益,请联系删除

发表评论

电子邮件地址不会被公开。 必填项已用*标注

Go