我想获取一个数据集,其中包含一组不同的唯一个体,每个个体都有多个条目,并为每个个体的所有条目分配一个惟一的ID。以下是df:
的示例 FirstName LastName id
0 Tom Jones 1
1 Tom Jones 1
2 David Smith 1
3 Alex Thompson 1
4 Alex Thompson 1
因此,基本上我希望Tom Jones的所有条目id=1,David Smith的所有条目id=2,Alex Thompson的所有条目id=3,依此类推。
所以我已经有了一个解决方案,那就是一个非常简单的python循环,它迭代两个值(一个用于id,一个用于索引),并根据它们是否与前一个人匹配来为其分配id:
x = 1
i = 1
while i < len(df_test):
if (df_test.LastName[i] == df_test.LastName[i-1]) &
(df_test.FirstName[i] == df_test.FirstName[i-1]):
df_test.loc[i, 'id'] = x
i = i+1
else:
x = x+1
df_test.loc[i, 'id'] = x
i = i+1
我遇到的问题是DataFrame大约有900万个条目,所以使用该循环将花费大量时间来运行。有没有人能想出一种更有效的方法来做这件事呢?我一直在考虑将Groupby和多索引作为潜在的解决方案,但还没有完全找到合适的解决方案。
您可以连接姓氏和名字,将其转换为类别,然后获取代码。
当然,多个同名人员具有相同的id
。
df = df.assign(id=(df['LastName'] + '_' + df['FirstName']).astype('category').cat.codes)
>>> df
FirstName LastName id
0 Tom Jones 0
1 Tom Jones 0
2 David Smith 1
3 Alex Thompson 2
4 Alex Thompson 2
这篇关于如何在超大DF中根据姓名有效地为具有多个条目的个人分配唯一ID的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持跟版网!