Underc0de

Foros Generales => Dudas y pedidos generales => Mensaje iniciado por: deni_celine en Octubre 09, 2014, 03:57:47 PM

Título: Visitar páginas con urllib más rápido
Publicado por: deni_celine en Octubre 09, 2014, 03:57:47 PM
Hola,

os queria preguntar si tienen una idea para poder obtener el contenido de unas páginas web de manera automática, más rápidamente..
corrí mi código y al verlo al día se quedo pegado luego de visitar 9000 páginas aprox... El problema es que tengo que obtener el resultado de un par de  millones de sitios
Estoy usando la librería openurl , dentro de un for.... dejo la parte del código ojalá me puedan ayudar :')

Código (python) [Seleccionar]

candidate_proxies = [#un array de proxys]

fichero = open(archivo_resultado,"a")
for i in range(2000000):
website = "http://asfsagasf.pe?id="+i
print " > Procesando ["+i+"]"

for proxy in candidate_proxies:
print "Trying HTTP proxy %s" % proxy
try:
f = urlopen(website,proxies={'http': proxy}).read()
break
except:
print "Trying next proxy ..."

try:
datos = re.search( "<meta name=\"Keywords\".*?content=\"([^\"]*)\"", f ).group(1)
except:
print " > Error intentando leer de la pagina "+i
datos = "Error en "+i
#continue


try:
fichero.write(datos+"\n")
except:
print " > Error intentando escribir el archivo ["+i+"]"
#continue


Título: Re:Visitar páginas con urllib más rápido
Publicado por: Once en Octubre 12, 2014, 02:34:58 PM
Usa hilos o procesos, no visitas las páginas más rápido, pero puedes visitar varias a la vez.

Saludos!