Loop and display substring in python

Question

I wanted to display more than one substring from a string.

Raw string: <td></td><td></td><td></td><td></td><td>Mar08</td><td>Mar09</td><td>Mar10</td><td>Mar11</td><td>Mar12</td><td>Mar13</td></tr>

To display, expected result[Substring] :

Mar08 Mar09 Mar10 Mar11 Mar12 Mar13

I've tried with this code

def parseyear(list):
    sfind = "<strong>"
    efind = "</strong>"
    i = 0
    while i < len(list):
        s =  list.find(sfind,i,len(list))
        e = list.find(efind,s,len(list))
        v = list[s+len(sfind):e]
        i =  i + s
        print v

But it doesn't give the expected result.

This looks like HTML. Consider using an HTML parser?

Chris Martin
– Chris Martin

2015-09-07 06:07:44 +00:00
Commented Sep 7, 2015 at 6:07 — Chris Martin
– Chris Martin, Commented Sep 7, 2015 at 6:07
I don't see any difference between input and output

Ahasanul Haque
– Ahasanul Haque

2015-09-07 06:07:50 +00:00
Commented Sep 7, 2015 at 6:07 — Ahasanul Haque
– Ahasanul Haque, Commented Sep 7, 2015 at 6:07
@AhsanulHaque please find the edited version .

jOSe
– jOSe

2015-09-07 06:08:47 +00:00
Commented Sep 7, 2015 at 6:08 — jOSe
– jOSe, Commented Sep 7, 2015 at 6:08
Oops, was just trying to adjust formatting a little. Sorry!

Chris Martin
– Chris Martin

2015-09-07 06:09:58 +00:00
Commented Sep 7, 2015 at 6:09 — Chris Martin
– Chris Martin, Commented Sep 7, 2015 at 6:09
@ChrisMartin Thank you, no problem

jOSe
– jOSe

2015-09-07 06:10:55 +00:00
Commented Sep 7, 2015 at 6:10 — jOSe
– jOSe, Commented Sep 7, 2015 at 6:10

Juan Diego Godoy Robles · Accepted Answer · 2015-09-07 06:54:24Z

2

Use a regex:

>>> for m in re.findall(r'<strong>([^<]+)</strong>', raw_string):
...     print m
... 
Mar08
Mar09
Mar10
Mar11
Mar12
Mar13

edited Sep 7, 2015 at 6:54

answered Sep 7, 2015 at 6:11

Juan Diego Godoy Robles

15k2 gold badges43 silver badges57 bronze badges

Sign up to request clarification or add additional context in comments.

4 Comments

Chris Martin Over a year ago

(see also: stackoverflow.com/questions/1732348/…)

jOSe Over a year ago

When I tried to do the same for following raw text, it doesn't work <td>0.00</td><td>0.00</td><td>0.00</td><td>0.21</td><td>0.23</td><td>1.23</td><td>1.30</td><td>1.74</td><td>0.87</td><td>0.98</td></tr>

Stefan van den Akker Over a year ago

Now you have two problems.

Juan Diego Godoy Robles Over a year ago

Just refine the regex @jOSe. See my ed answer

Stefan van den Akker · Accepted Answer · 2015-09-07 06:57:27Z

If you do not want to use regex:

def find_substrings(s, delim_start, delim_end):
    """Find the string that is delimited by two different strings."""
    start = s.find(delim_start)
    # to calculate the length of the start delimiter
    len_delim_start = len(delim_start)
    while start != -1:
        end = s.find(delim_end, start + 1)
        substring = s[(start + len_delim_start):end]
        # print only if substring is not empty
        if substring: print substring
        start = s.find(delim_start, end + 1)

html = """
<td><strong></strong></td><td><strong></strong></td><td><strong></strong></td><td><strong></strong>
</td><td><strong>Mar08</strong></td><td><strong>Mar09</strong></td><td><strong>Mar10</strong></td>
<td><strong>Mar11</strong></td><td><strong>Mar12</strong></td><td><strong>Mar13</strong></td></tr>
"""

html2 = """
<td><strong>0.00</strong></td><td><strong>0.00</strong></td><td><strong>0.00</strong></td><td>
<strong>0.21</strong></td><td><strong>0.23</strong></td><td><strong>1.23</strong></td><td><strong>
1.30</strong></td><td><strong>1.74</strong></td><td><strong>0.87</strong></td><td><strong>
0.98</strong></td></tr>
"""

find_substrings(html2, "<strong>", "</strong>")

# output:
# 0.00
# 0.00
# 0.00
# 0.21
# 0.23
# 1.23
# 1.30
# 1.74
# 0.87
# 0.98

Łukasz Rogalski · Accepted Answer · 2015-09-07 07:07:22Z

0

Simply using xml parser, given known xml data structure.

import xml.etree.ElementTree 
s = "<tr><td><strong></strong></td><td><strong></strong></td><td><strong></strong></td><td><strong></strong></td><td><strong>Mar08</strong></td><td><strong>Mar09</strong></td><td><strong>Mar10</strong></td><td><strong>Mar11</strong></td><td><strong>Mar12</strong></td><td><strong>Mar13</strong></td></tr>"
parsed_xml = xml.etree.ElementTree.fromstring(s)
values = [e.text for e in parsed_xml.findall("./td/strong") if e.text]
assert values == ['Mar08', 'Mar09', 'Mar10', 'Mar11', 'Mar12', 'Mar13']

answered Sep 7, 2015 at 7:07

Łukasz Rogalski

23.3k10 gold badges63 silver badges93 bronze badges

Collectives™ on Stack Overflow

Loop and display substring in python

3 Answers 3

4 Comments

Comments

Comments

Your Answer

Linked

Hot Network Questions

Collectives™ on Stack Overflow

3 Answers 3

4 Comments

Comments

Comments

Your Answer

Sign up or log in

Post as a guest

Linked

Related