Pandas removing duplicate values column by column

Question

How to go about removing duplicates column by column in a pandas data frame so that:

set1    set2    set3    set4
apple   apple   orange  orange
apple   orange  banana  orange
orange  banana  pear    
banana  banana  lemon   
pear            lemon   
grape           lemon

becomes:

set1    set2    set3    set4
apple   apple   orange  orange
orange  orange  banana  
banana  banana  pear    
pear            lemon   
grape

If you want the unique values from a column, you can always do df['column_name'].unique(). — IMCoins
– IMCoins, Commented Aug 30, 2019 at 13:00

anky · Accepted Answer · 2019-08-30 13:50:12Z

3

Use:

m=df.apply(lambda x:dict.fromkeys(x).keys())
pd.DataFrame(m.values.tolist(),index=m.index).T

Or a better way courtesy @piRSquared:

pd.DataFrame.from_dict({k: {*df[k].dropna()} for k in df}, orient='index').T

     set1    set2    set3    set4
0   apple   apple  orange  orange
1  orange  orange  banana     NaN
2  banana  banana    pear    None
3    pear     NaN   lemon    None
4   grape    None    None    None

edited Aug 30, 2019 at 13:50

answered Aug 30, 2019 at 13:07

anky

75.3k11 gold badges46 silver badges76 bronze badges

Sign up to request clarification or add additional context in comments.

1 Comment

piRSquared Over a year ago

pd.DataFrame.from_dict({k: {*df[k].dropna()} for k in df}, orient='index').T

BENY · Accepted Answer · 2019-08-30 13:52:25Z

3

Here is another way pivot

df.melt().dropna().drop_duplicates(['variable','value']).\
   assign(key=lambda x : x.groupby('variable').cumcount()).pivot(index='key',columns='variable',values='value')
Out[806]: 
variable    set1    set2    set3    set4
key                                     
0          apple   apple  orange  orange
1         orange  orange  banana     NaN
2         banana  banana    pear     NaN
3           pear     NaN   lemon     NaN
4          grape     NaN     NaN     NaN

answered Aug 30, 2019 at 13:52

BENY

324k22 gold badges176 silver badges250 bronze badges

Comments

piRSquared · Accepted Answer · 2019-08-30 14:29:02Z

3

`itertools.zip_longest`

from itertools import zip_longest

pd.DataFrame(
    [*zip_longest(*({*df[c].dropna()} for c in df))],
    columns=[*df]
)

     set1    set2    set3    set4
0  banana  orange  banana  orange
1   grape  banana   lemon    None
2    pear   apple    pear    None
3   apple    None  orange    None
4  orange    None    None    None

`collections.defaultdict` and `itertools.count`

# %%timeit
from collections import defaultdict
from itertools import count
i = defaultdict(count)

pd.DataFrame({c: {next(i[c]): v for v in {*df[c].dropna()}} for c in df})

     set1    set2    set3    set4
0    pear   apple  orange  orange
1   grape  banana   lemon     NaN
2   apple  orange  banana     NaN
3  banana     NaN    pear     NaN
4  orange     NaN     NaN     NaN

edited Aug 30, 2019 at 14:29

answered Aug 30, 2019 at 13:51

piRSquared

296k68 gold badges509 silver badges654 bronze badges

Comments

piRSquared · Accepted Answer · 2019-08-30 14:17:57Z

1

You can also use drop_duplicates :

df.apply(lambda x : x.drop_duplicates().reset_index(drop=True))

>

     set1    set2    set3    set4
0   apple   apple  orange  orange
1  orange  orange  banana     NaN
2  banana  banana    pear     NaN
3    pear     NaN   lemon     NaN
4   grape     NaN     NaN     NaN

edited Aug 30, 2019 at 14:17

piRSquared

296k68 gold badges509 silver badges654 bronze badges

answered Aug 30, 2019 at 14:06

Harsh Anand

336 bronze badges

Collectives™ on Stack Overflow

Pandas removing duplicate values column by column

4 Answers 4

1 Comment

Comments

`itertools.zip_longest`

`collections.defaultdict` and `itertools.count`

Comments

Comments

Your Answer

Hot Network Questions

Collectives™ on Stack Overflow

4 Answers 4

1 Comment

Comments

itertools.zip_longest

collections.defaultdict and itertools.count

Comments

Comments

Your Answer

Sign up or log in

Post as a guest

Related

`itertools.zip_longest`

`collections.defaultdict` and `itertools.count`