sklearn_南奥网

技术⋅ 01-24 ⋅ 1062 阅读

本文介绍在高维稀疏医学数据（如含5300列代谢物、200例样本且缺失值密集）中正确实施PCA的方法，重点解析跳过完整样本删除、支持成对有效观测的协方差矩阵构建策略，并提供可直接运行的NumPy手动实现代码。

技术⋅ 01-24 ⋅ 1108 阅读

列归一化本质是每列独立执行(x-col_mean)/col_std：需用axis=0计算均值和标准差以获得(n_cols,)向量实现广播；漏写axis=0或误用axis=1会导致错误；含NaN时建议keepdims=True；StandardScaler更适用于需复用参数的场景。

技术⋅ 01-20 ⋅ 944 阅读

最高效方式是用广播机制一行实现：a_norm=(a-a.mean(axis=0))/a.std(axis=0,ddof=0)；需处理std=0的列，设其标准差为1避免除零；结果等价于sklearnStandardScaler但更快更轻量。

技术⋅ 01-18 ⋅ 1839 阅读

R²分数并非总在0–1之间；当模型拟合效果比简单用均值预测更差时，R²会为负值——这表明当前非线性函数形式或参数初值严重偏离数据规律。

技术⋅ 01-18 ⋅ 667 阅读

R²分数并非恒为正值，当模型拟合效果比简单均值预测更差时，其值可为负数；本文详解sklearn中r2_score的计算逻辑、负值成因，并提供规范的非线性拟合与评估实践指南。

技术⋅ 01-18 ⋅ 481 阅读

R²分数并非总在[0,1]区间内；当模型拟合效果比“仅预测均值”的基准模型更差时，R²可为负值，这反映模型存在严重失拟或设定错误。

技术⋅ 01-16 ⋅ 1853 阅读

最近邻插值（interpolate(method=‘nearest’)）仅基于一维索引顺序查找相邻非空值，无法利用多维特征相似性；当缺失值位于序列首尾或连续缺失段中时，该方法失效，导致Titanic测试集中两个年龄值未能填充。

技术⋅ 01-16 ⋅ 1482 阅读

最近邻插补（interpolate(method=‘nearest’)）依赖数据中邻近非空值进行填充，当缺失值位于序列首尾、孤立位置或周围无有效邻值时，将无法插补而保留NaN。

技术⋅ 01-16 ⋅ 968 阅读

本文详解为何Pandas的interpolate(method=‘nearest’)在泰坦尼克测试集上无法填补全部年龄缺失值，并提供多种可靠替代方案及实操代码。

编程⋅ 01-11 ⋅ 511 阅读

所谓决策树，就是一个类似于流程图的树形结构，树内部的每一个节点代表的是对一个特征的测试，树的分支代表该特征的每一个测试结果，而树的每一个叶子节点代表一个类别。树的最高层是就是根节点

与“sklearn”相关的TAG标签