Visitar páginas con urllib más rápido

deni_celine · Octubre 09, 2014, 03:57:47 PM

Hola,

os queria preguntar si tienen una idea para poder obtener el contenido de unas páginas web de manera automática, más rápidamente..
corrí mi código y al verlo al día se quedo pegado luego de visitar 9000 páginas aprox... El problema es que tengo que obtener el resultado de un par de millones de sitios
Estoy usando la librería openurl , dentro de un for.... dejo la parte del código ojalá me puedan ayudar :')

Código: python


candidate_proxies = [#un array de proxys]
					 
fichero = open(archivo_resultado,"a")
for i in range(2000000):
	website = "http://asfsagasf.pe?id="+i
	print " > Procesando ["+i+"]"
	
	for proxy in candidate_proxies:
		print "Trying HTTP proxy %s" % proxy
		try:
			f = urlopen(website,proxies={'http': proxy}).read()
			break
		except:
			print "Trying next proxy ..."
	
	try:
		datos = re.search( "<meta name=\"Keywords\".*?content=\"([^\"]*)\"", f ).group(1)
	except:
		print " > Error intentando leer de la pagina "+i
		datos = "Error en "+i
		#continue
	

	try:
		fichero.write(datos+"\n")
	except:
		print " > Error intentando escribir el archivo ["+i+"]"
		#continue

Once · Octubre 12, 2014, 02:34:58 PM

Usa hilos o procesos, no visitas las páginas más rápido, pero puedes visitar varias a la vez.

Saludos!

Visitar páginas con urllib más rápido

deni_celine

Octubre 09, 2014, 03:57:47 PM

Once

Octubre 12, 2014, 02:34:58 PM #1