Hola que tal?
les vengo a contar sobre mi problema, hace un mes intento intento intento y no puedo hacer scraping a una url. Mi idea es inventar un sistema de ir cambiando los proxies y cuando te bajan uno.. cambiar al otro y seguir con el scraping (o cualquier otra forma que permita hacer scraping ilimitado) . Es importante que si alguien me ayuda( ojala si ) intente hacerlo con el link que pase reiteradas veces a ver si funciona, por que me a pasado que proponen otros links y no la url que he mandado.
en este scrip buscamos los proxies....
import requests
from bs4 import BeautifulSoup
sourceProxy = requests.get('https://free-proxy-list.net/', headers={'User-Agent':'Mozilla/5.0'})
bSoup = BeautifulSoup(sourceProxy.text,"lxml")
for items in bSoup.select("tbody tr"):
proxy_list = ':'.join([item.text for item in items.select("td")[:2]])
print(proxy_list)
hasta ahi muy lindo todo... ahora vamos a pegarle a la url...
import requests
validador = "https://www.espanol.skyscanner.com/g/browseservice/dataservices/browse/v3/bvweb/AR/ARS/es-MX/destinations/es/ar/2019-06-22/?profile=minimalcityrollupwithnamesv2&include=image;holiday&apikey=8aa374f4e28e4664bf268f850f767535"
proxy = '179.124.240.199:40524' # se podria hacer la iteracion de arriba pero vamos a probar con esta..
print("Request: ")
try:
response = requests.get(validador,proxies={"http": proxy, "https": proxy})
print(response.json())
except:
print("Connnection error")
una de las respuestas que me da
{'redirect_to': '/sttc/px/captcha/index.html?url=Lw==&uuid=ace23420-70e8-11e9-9e16-99c145471a63&vid=', 'reason': 'blocked'}
por favor ayuda :(
@lemos.ema
Hola, no creo que la redirección sea culpa del proxy, ni de python, le colocaste un agente de usuario incorrecto, por lo tanto la página creerás que eres un bot o alguien que trata de hacer "user-agent spoofing".
Para verificar si es culpa del agente de usuario, coloca uno que sea exactamente igual al de un navegador muy conocido.
Para que obtener más conocimientos acerca del agente de usuario visita: https://developer.mozilla.org/es/docs/Web/HTTP/Headers/User-Agent
Buenas, si has probado lo anterior que han dicho, pero te sigue sin funcionar, lo que puedes hacer es utilizar proxys con Tor. Te comparto este enlace para que lo puedas ver. El link es este:
https://techmonger.github.io/68/tor-new-ip-python/
Espero que te sirva, saludos!
@Kirari (https://underc0de.org/foro/index.php?action=profile;u=92682)
Espléndido, te recomiendo que hagas un aporte en python, seré el primero que lo va a ver.