Imprimir Página - Visitar páginas con urllib más rápido

Título: Visitar páginas con urllib más rápido
Publicado por: deni_celine en Octubre 09, 2014, 03:57:47 PM

Hola,

os queria preguntar si tienen una idea para poder obtener el contenido de unas páginas web de manera automática, más rápidamente..
corrí mi código y al verlo al día se quedo pegado luego de visitar 9000 páginas aprox... El problema es que tengo que obtener el resultado de un par de millones de sitios
Estoy usando la librería openurl , dentro de un for.... dejo la parte del código ojalá me puedan ayudar :')

Código (python) [Seleccionar]


candidate_proxies = [#un array de proxys]
					 
fichero = open(archivo_resultado,"a")
for i in range(2000000):
	website = "http://asfsagasf.pe?id="+i
	print " > Procesando ["+i+"]"
	
	for proxy in candidate_proxies:
		print "Trying HTTP proxy %s" % proxy
		try:
			f = urlopen(website,proxies={'http': proxy}).read()
			break
		except:
			print "Trying next proxy ..."
	
	try:
		datos = re.search( "<meta name=\"Keywords\".*?content=\"([^\"]*)\"", f ).group(1)
	except:
		print " > Error intentando leer de la pagina "+i
		datos = "Error en "+i
		#continue
	

	try:
		fichero.write(datos+"\n")
	except:
		print " > Error intentando escribir el archivo ["+i+"]"
		#continue

Título: Re:Visitar páginas con urllib más rápido
Publicado por: Once en Octubre 12, 2014, 02:34:58 PM

Usa hilos o procesos, no visitas las páginas más rápido, pero puedes visitar varias a la vez.

Saludos!

Underc0de

Foros Generales => Dudas y pedidos generales => Mensaje iniciado por: deni_celine en Octubre 09, 2014, 03:57:47 PM