【Data Science】常用统计指标

基础指标

平均数

  • 任一数据的变动都会引起该数值的变动,受极端值影响较大

  • 通常而言我们不会使用平均数来填充缺失值。

    • 均值会因偏态而无法准确反应样本实际情况,使用要慎重。
  • 平均数需要有实际意义,注意辛普森悖论。

众数

  • 分类问题中常用,偷懒时,可用于离散型缺失值填充。

    1
    series.fillna(series.mode()[0],inplace = True)
  • 众数也即频数,频数通常在特征构造中时常使用,作为一种特殊的编码(Frequence Encoder)。

百分位数

  • 中位数:连续问题中常用此来观测数据的偏态,且可用于对完全随机缺失的连续性特征进行填充

    1
    series.fillna(series.median().inplace = True)
  • 其他百分位数

    • 分箱
    • 异常值阈值

相对数

  • 增量
  • 比率

泛化误差

数学期望

方差(Var)

标准差(Std)

协方差(Cov)

相关系数(Corr)

可决系数(R^2)

离差平方和(SST)

残差(组间)平方和(SSE)

回归(组内)平方和(SSR)

泛化误差三大组成——噪音\偏差\方差

分类问题——混淆矩阵(二分类为基础)

TP、FP、TN、FN

TPR、FPR、TNR、FNR

第一类错误、第二类错误、Accuracy、Precision、Recall

f1-score、fn-score

AUC

回归问题

MSE

RMSE

数据分布

显著性、置信度、置信区间

F、t、N、卡方检验值

熵、交叉熵、KL散度

极大似然估计量与最大后验估计量


本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!