首先,导入pandas库并创建一个示例数据集:
import pandas as pd data = {'A': [1, 2, 3, 4, 5], 'B': [10, 20, 30, 40, 50], 'C': [100, 200, 300, 400, 500]} df = pd.DataFrame(data) print("Original DataFrame:") print(df)
原始数据集如下:
A B C 0 1 10 100 1 2 20 200 2 3 30 300 3 4 40 400 4 5 50 500
现在,我们将创建一个新索引。例如,我们可以使用range()
函数创建一个从1到5的新索引:
new_index = range(1, 6)
要使用新索引重新索引数据集,请使用reindex()
方法:
reindexed_df = df.reindex(new_index) print("\nReindexed DataFrame:") print(reindexed_df)
重新索引后的数据集如下:
A B C 1 2 20 200 2 3 30 300 3 4 40 400 4 5 50 500 5 NaN NaN NaN
注意,新索引中的值(1, 2, 3, 4, 5)与原始数据集中的值(0, 1, 2, 3, 4)不匹配的值将被替换为NaN。如果需要,可以使用fill_value
参数填充这些NaN值。例如,使用前一个值填充NaN:
reindexed_df = df.reindex(new_index, fill_value=df.iloc[0]) print("\nReindexed DataFrame with fill value:") print(reindexed_df)
填充后的数据集如下:
A B C 1 2 20 200 2 3 30 300 3 4 40 400 4 5 50 500 5 1 10 100
这就是如何在Python中使用pandas库重新索引数据集并创建新索引。