有一个较大的dataframe,几百万条记录。怎样:(1)最快地判断是否存在重复项?也就是只要有重复项就可以,不必标记那一项。(2)最方便地判断是否存在重复项?也就是代码写得最少谢谢
https://pandas.pydata.org/pan...
import pandas as pd df = pd.DataFrame({'a': [1, 1], 'b': [1, 1]}) is_duplicate = not all(df.duplicated()) print(is_duplicate)
2.1m questions
2.1m answers
63 comments
56.6k users