dropna()
函数删除缺失值,使用fillna()
函数填充缺失值,使用replace()
函数替换数据等。import pandas as pd # 读取数据 data = pd.read_csv('data.csv') # 删除缺失值 data = data.dropna() # 填充缺失值 data = data.fillna(0) # 替换数据 data = data.replace({'old_value': 'new_value'})
numpy.nan_to_num()
函数将NaN值转换为数字,使用numpy.isinf()
函数检查无穷大值等。import numpy as np # 将NaN值转换为数字 data = np.nan_to_num(data) # 检查无穷大值 data = np.isinf(data)
scipy.stats.zscore()
函数计算数据的Z分数,用于检测异常值等。from scipy import stats # 计算Z分数 data = stats.zscore(data)
matplotlib.pyplot()
函数绘制数据的直方图或箱线图,以便发现异常值和数据分布等。import matplotlib.pyplot as plt import seaborn as sns # 绘制直方图 plt.hist(data) plt.show() # 绘制箱线图 sns.boxplot(data) plt.show()
总之,Python的指令表可以进行数据清洗,只需要掌握一些常用的库和函数,就可以根据具体需求进行数据清洗和预处理。