Hola,
os queria preguntar si tienen una idea para poder obtener el contenido de unas páginas web de manera automática, más rápidamente..
corrí mi código y al verlo al día se quedo pegado luego de visitar 9000 páginas aprox... El problema es que tengo que obtener el resultado de un par de millones de sitios
Estoy usando la librería openurl , dentro de un for.... dejo la parte del código ojalá me puedan ayudar :')
candidate_proxies = [#un array de proxys]
fichero = open(archivo_resultado,"a")
for i in range(2000000):
website = "http://asfsagasf.pe?id="+i
print " > Procesando ["+i+"]"
for proxy in candidate_proxies:
print "Trying HTTP proxy %s" % proxy
try:
f = urlopen(website,proxies={'http': proxy}).read()
break
except:
print "Trying next proxy ..."
try:
datos = re.search( "<meta name=\"Keywords\".*?content=\"([^\"]*)\"", f ).group(1)
except:
print " > Error intentando leer de la pagina "+i
datos = "Error en "+i
#continue
try:
fichero.write(datos+"\n")
except:
print " > Error intentando escribir el archivo ["+i+"]"
#continue
Usa hilos o procesos, no visitas las páginas más rápido, pero puedes visitar varias a la vez.
Saludos!