15 ultimas noticias de fayerwayer movil

Iniciado por blozzter, Octubre 17, 2011, 04:40:17 PM

Tema anterior - Siguiente tema

0 Miembros y 1 Visitante están viendo este tema.

Esta vez mostraré una de las tantas utilidades que se pueden hacer con los módulos urllib2 y re de Python.

el módulo urllib2 sirve para trabajar con páginas web, obteniendo el código fuente de una web; mientras que re nos permite buscar ciertos patrones en ese código fuente.

tomaremos como ejemplo la web movil de fayerwayer, viendo su código fuente buscamos el modo en que se presentan las noticias, que sería de la forma:

<a class="h2" href="link_de_la_noticia">título_de_la_noticia</a>


por lo tanto la expresión regular para asociar el link y la noticia sería:

link, noticia = <a class=\"h2\" href=\"(.*)\">(.*)</a>

conociendo esto y el uso de los módulos, hacemos el script que lista las noticias y sus respectivos links:

Código: python
# rescatando noticias de fayerwayer
# 15 ultimas noticias desde la version movil
# by blozzter || [email protected]

import urllib2, re

url = "http://m.fayerwayer.com/"
source = urllib2.urlopen(url).read()

links = [] # lista donde se almacenarAn los links
news = [] # lista donde se almacenarAn los titulares

for linkNew, new in re.findall("<a class=\"h2\" href=\"(.*)\">(.*)</a>\n", source):
    links.append(linkNew) # se agrega nuevo link
    news.append(new) # se agrega nuevo titular
   
for i in range(15):
    print 'titular: ' + news[i]
    print 'link: ' + links[i]
    print '-' * 30 + '\n'



saludos.
¡< blozzter >!