Chunfu Shawn's Blog

Welcome to my blog!

PCA、tSNE和UMAP降维可视化

基本原理、优势及代码实例

一、降维目的与方法概述在实际的机器学习项目中,特征选择/降维是必须进行的,因为在数据中存在以下几个方面的问题: 数据的多重共线性:特征属性之间存在着相互关联关系。多重共线性会导致解的空间不稳定, 从而导致模型的泛化能力弱; 高纬空间样本具有稀疏性,导致模型比较难找到数据特征;过多的变量会妨碍模型查找规律; 仅仅考虑单个变量对于目标属性的影响可能忽略变量之间的潜在关系。 降维是指通过保留一......

正则化 Regularization

L1和L2范数正则化的理解

1. 正则化正则化是一个通用的算法和思想,所以会产生过拟合现象的算法都可以使用正则化来避免过拟合。 在经验风险最小化的基础上(也就是训练误差最小化),尽可能采用简单的模型,可以有效提高泛化预测精度。如果模型过于复杂,变量值稍微有点变动,就会引起预测精度问题。正则化之所以有效,就是因为其降低了特征的权重,使得模型更为简单。 正则化一般会采用 L1 范式或者 L2 范式,其形式分别为 和 。 2......

The interpretations of sensitivity, specificity, precision, recall, AUC, ROC and AUC-PR

Sensitivity, specificity, precision, recall, AUC, ROC and AUC-PR

1. Confusion Matrix In the field of machine learning and specifically the problem of statistical classification, a confusion matrix is a table that is used to define the performance of a classifica......

EM算法的理解和数学推导

EM算法的理解和数学推导

EM算法是什么?什么是E(Epectation)?什么是M(Maximization)?什么又是公式里面出现的Q函数?这些公式都是怎么推导的? 极大似然和EM(Expectation Maximization)算法,与其说是一种算法,不如说是一种解决问题的思想,解决一类问题的框架,是很多具体算法的基础。 一、EM算法的背景和推导 EM算法主要是用在概率图中参数学习上面,如果具有完整观测数据集......

最大似然估计 Maximum likelihood estimation,MLE

最大似然估计 Maximum likelihood estimation,MLE

一、统计推断 推断统计学(或称统计推断,英语:statistical inference), 指统计学中,研究如何根据样本(sample)数据去推断总体(population)特征(或者参数)的方法。 比如,我们要研究中国人的身高分布,那么全国14亿人的身高数据就是总体(population), 这14亿身高数据所属的数据分布称为 总体分布 (population distribution)......

核密度估计(kernel density estimation)

核密度估计及bandwidth和kernel的选择

在得到一些数据后,你想看这些数据的分布情况,一般会画直方图(Histogram),但如果你想知道这个数据的分布密度情况呢?我们就需要对数据的分布进行密度估计。 一、密度估计的问题 由给定样本集合求解随机变量的分布密度函数问题是概率统计学的基本问题之一。解决这一问题的方法包括参数估计和非参数估计。 1. 参数估计 参数估计又可分为参数回归分析和参数判别分析。在参数回归分析中,人们假定数据分布符......

统计中该用Fisher精确检验还是卡方检验?

Fisher精确检验和卡方检验的原理与代码实现,如何选择他们?

一、卡方检验卡方检验属于非参数检验,由于非参检验不存在具体参数和总体正态分布的假设,所以有时被称为自由分布检验。卡方检验就是依靠卡方分布的统计检验。 什么是卡方分布:若n个相互独立的随机变量ξ₁,ξ₂,…,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distributi......

T test, Z test, or MWU test (Wilcoxon rank-sum test)?

T test, Z test和MWU test的原理与代码实现,如何选择他们?

一、T test 1、概念 t 检验也称为 Student t 检验,它是一种使用假设检验来评估一个或两个总体均值的工具,用于统计量服从正态分布,但方差未知的情况。t 检验可用于评估某个组是否与已知值有差异(单样本 t 检验),两个组是否彼此有差异(独立双样本 t 检验),或成对测量值中是否存在显著差异(成对或非独立样本 t 检验)。 2、适用情况 要求样本服从正态分布或近似正态分布(为什......

Wilcoxon 检验之 rank-sum 与 signed-rank

Wilcoxon检验的原理与代码实现

Frank Wilcoxon (1892—1965) 是美国的统计学家,发表了 70 篇左右论文,但其最大的贡献就是这 2 个以他名字命名的非参假设检验方法:秩和检验 和 符号秩检验。他在 1945 年发表的论文中将二者分别称为 非成对检验 (unpaired experiment)和 成对检验(paired comparison)。 正是因为其巨大影响力使得这两个检验方法都以他的名字命名,......

稀疏矩阵(Sparse Matrix)的高效存储和读取

稀疏矩阵的高效存储和读取;python和R的实现

成功实现四连更!哇哈哈哈哈 稀疏矩阵 sparse matrix 介绍 所谓稀疏矩阵,就是矩阵包含的值有太多是 0 了,而关键信息的值却占比很少。如果把这些 0 也进行存储的话,无疑是浪费了太多空间。基于此,就有了稀疏矩阵的各种表示格式,以摘要的信息表示那些非零值在矩阵中的位置。总体上讲,稀疏矩阵的表示格式可以分为两大类:支持高效修改的、支持高效访问与矩阵操作的。 Efficient ......