大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语— 这篇文章讲述的是基于模型的缺失值填补。希望这篇数据清洗的文章对您有所帮助!如果您有想学习的知识或建议,可以给作者留言~ 基于模型的方法会将含有缺失值的变量作为预测目标 是一种数据科学领域的经典学习算法 这样,一个缺失值填补的问题就成为一个经典的回归预测问题 通过计算训练集样本与目标样本的相似性,“鼓励”每个样本与目标样本去匹配 计算距离:给定目标样本,计算它与训练集中每个样本的距离 当预测某个样本的缺失属性时,KNN会先去寻找与该样本最相似的K个样本 把gender属性作为目标属性,36个表征兴趣的属性作为输入属性 enumerate()函数,可以在生成值得时候能够自定生成递增序列 本次的就到这里了, 好书不厌读百回,熟读课思子自知。而我想要成为全场最靓的仔,就必须坚持通过学习来获取更多知识,用知识改变命运,用博客见证成长,用行动证明我在努力。
不温不火
,本意是希望自己性情温和
。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!暂时只有csdn这一个平台,博客主页:https://buwenbuhuo.blog.csdn.net/
将数据集中其他变量或其子集作为输入变量,通过变量的非缺失值构造训练集,训练分类或回归模型
使用构建的模型来预测相应变量的缺失值一、线性回归
用来刻画响应变量与自变量之间的关系
线性回归模型的数学表达式为:
拟合函数与原始数据的误差最小,是一种整体靠近,对局部性质没有要求
在原有数据之间插入数值,插值函数必须经过所有的已知数据点二、KNN算法
根据给定条件,选择最适合的K个样本作为目标样本的“邻居”
相似性的度量有以下选择:
寻找邻居:选择距离最近的K个训练集样本,作为目标样本的近邻
分类预测:根据近样本的所属类别,或者属性的取值来预测目标样本的类别或者属性取值
通过观察近邻样本的相关属性取值,来最终确定样本的缺失属性值
学生的兴趣对其性别具有较好的指示作用
将兴趣作为输入属性,将gender属性作为预测目标
import pandas as pd import numpy as np teenager = pd.read_csv('./input/teenager.csv') teenager['gender'].value_counts(dropna=False) na_index = teenager[teenager['gender'].isnull()].index.values
# 不含有缺失值的索引, 可作为我们的训练集 normal_index = teenager[~teenager['gender'].isnull()].index.values
# x为兴趣爱好,y为性别 trainX = teenager.iloc[normal_index] trainY = teenager.iloc[normal_index,1] trainX.head()
testX = teenager.iloc[na_index] testY = teenager.iloc[na_index,1]
# 计算欧式距离 distances = [] for item in testX.iloc[:,4:].values: dist = {} for index, item1 in enumerate(trainX.iloc[:,4:].values): distance = np.sqrt(np.sum(np.square(item - item1))) dist[index] = distance distances.append(dist)
enumerate(trainX.iloc[:,4:].values)
KNN是一个偏差小,方差大的计算模型
KNN只选取与目标样本相似的完整样本参与计算,精度相对来说比较高
为了计算相似程度,KNN必须重复遍历训练集的每个样本
如果数据集容量较大,KNN的计算代价会升高
标准KNN算法对数据样本的K个邻居赋予相同的权重,并不合理
一般来说,距离越远的数据样本所能施加的影响就越小
需要对KNN一定的改进,比如让邻居的权重与距离成反比关系
如果我的博客对你有帮助、如果你喜欢我的博客内容,请“” “评论”“”
一键三连哦!听说的人运气不会太差,每一天都会元气满满呦!如果实在要白嫖的话,那祝你开心每一天,欢迎常来我博客看看。
码字不易,大家的支持就是我坚持下去的动力。后不要忘了关注
我哦!
本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器 下载并得到。
ImovieBox网页视频下载器 下载地址: ImovieBox网页视频下载器-最新版本下载
本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.
阅读和此文章类似的: 全球云计算