【Data Science】常用统计指标
基础指标
平均数
任一数据的变动都会引起该数值的变动,受极端值影响较大。
通常而言我们不会使用平均数来填充缺失值。
- 均值会因偏态而无法准确反应样本实际情况,使用要慎重。
- 平均数需要有实际意义,注意辛普森悖论。
众数
分类问题中常用,偷懒时,可用于离散型缺失值填充。
1
series.fillna(series.mode()[0],inplace = True)
众数也即频数,频数通常在特征构造中时常使用,作为一种特殊的编码(Frequence Encoder)。
百分位数
中位数:连续问题中常用此来观测数据的偏态,且可用于对完全随机缺失的连续性特征进行填充。
1
series.fillna(series.median().inplace = True)
其他百分位数
- 分箱
- 异常值阈值
相对数
- 增量
- 比率
泛化误差
数学期望
方差(Var)
标准差(Std)
协方差(Cov)
相关系数(Corr)
可决系数(R^2)
离差平方和(SST)
残差(组间)平方和(SSE)
回归(组内)平方和(SSR)
泛化误差三大组成——噪音\偏差\方差
分类问题——混淆矩阵(二分类为基础)
TP、FP、TN、FN
TPR、FPR、TNR、FNR
第一类错误、第二类错误、Accuracy、Precision、Recall
f1-score、fn-score
AUC
回归问题
MSE
RMSE
数据分布
显著性、置信度、置信区间
F、t、N、卡方检验值
熵、交叉熵、KL散度
极大似然估计量与最大后验估计量
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!