解析rss不同标签提取图片

parsing rss different tags extract image

您好,我正在尝试从多个站点 rss 中提取图像。

第一个 rss

<enclosure type="image/jpeg" length="321742" url="http://www.sitio.com.uy//uploads/2014/10/19/54441d68e01af.jpg"/>

第二个 rss

<g:image_link>http://img.sitio2.com/imagenes/314165_20150422201743_635653477836873822w.jpg</g:image_link>

需要提取图像 url。

我的代码在 python

中使用 Beatifulsoup
    response = requests.get(url)
    soup = bs4.BeautifulSoup(response.text)

    items = soup.find_all('item')

    for item in items:
        title = item.find('title').get_text().encode('utf-8')
        description = item.find('description').get_text().encode('utf-8')
        category = item.find('category').get_text().encode('utf-8')
        image = item.find('enclosure')

        print(image)

您可以使用标签列表搜索多个标签。

item.find(['enclosure', 'g:image_link'])

这将 return 它找到的第一个标签。如果有多个标签使用 find_all.

item.find_all(['enclosure', 'g:image_link'])