using regular expression to remove rows from a pandas dataframe

Question

Suppose I have a pandas dataframe like this:

         Word      Rating
   0     Bear      1
   1     Yuck      2
   2     Girl      3
   3     Yellow    4

How can I use regex in pandas to filter out the rows that have the word that starts with the letter "y" but keep the dataframe formatting? I know the regex pattern would be r"\b[^y]\w+\b"

Expected output:

         Word    Rating
    0    Bear    1
    2    Girl    3

Zero · Accepted Answer · 2017-08-03 17:20:34Z

6

Using startswith

In [1187]: df[~df.Word.str.startswith('Y')]
Out[1187]:
   Word  Rating
0  Bear       1
2  Girl       3

Or, regex match

In [1203]: df[df.Word.str.match('^[^Y]')]
Out[1203]:
   Word  Rating
0  Bear       1
2  Girl       3

edited Aug 3, 2017 at 17:20

answered Aug 3, 2017 at 17:15

Zero

77.4k22 gold badges153 silver badges153 bronze badges

Sign up to request clarification or add additional context in comments.

Comments

DYZ · Accepted Answer · 2017-08-03 17:18:49Z

0

Regular expressions are not necessary. Just check the first letter:

df[df.Word.str[0] != 'Y']

answered Aug 3, 2017 at 17:18

DYZ

57.3k10 gold badges73 silver badges101 bronze badges

Comments

Scott Boston · Accepted Answer · 2017-08-03 17:21:44Z

0

Use lower and startswith to get both uppercase 'Y' and lowercase 'y':

df[~df.Word.str.lower().str.startswith('y')]

Input:

df

     Word  Rating
0    Bear       1
1    Yuck       2
2    Girl       3
3  Yellow       4
4     yes       5
5   color       6

Output:

    Word  Rating
0   Bear       1
2   Girl       3
5  color       6

answered Aug 3, 2017 at 17:21

Scott Boston

154k15 gold badges160 silver badges207 bronze badges

Collectives™ on Stack Overflow

using regular expression to remove rows from a pandas dataframe

3 Answers 3

Comments

Comments

Comments

Your Answer

Hot Network Questions

Collectives™ on Stack Overflow

3 Answers 3

Comments

Comments

Comments

Your Answer

Sign up or log in

Post as a guest

Related