Imprimir Página - [SOLUCIONADO] Me están haciendo scraping

Título: [SOLUCIONADO] Me están haciendo scraping
Publicado por: lemos.ema en Mayo 08, 2019, 11:45:01 AM

Hola que tal?
les vengo a contar sobre mi problema, hace un mes intento intento intento y no puedo hacer scraping a una url. Mi idea es inventar un sistema de ir cambiando los proxies y cuando te bajan uno.. cambiar al otro y seguir con el scraping (o cualquier otra forma que permita hacer scraping ilimitado) . Es importante que si alguien me ayuda( ojala si ) intente hacerlo con el link que pase reiteradas veces a ver si funciona, por que me a pasado que proponen otros links y no la url que he mandado.
en este scrip buscamos los proxies....

Código [Seleccionar]

import requests
from bs4 import BeautifulSoup
sourceProxy = requests.get('https://free-proxy-list.net/', headers={'User-Agent':'Mozilla/5.0'})
bSoup = BeautifulSoup(sourceProxy.text,"lxml")
for items in bSoup.select("tbody tr"):
    proxy_list = ':'.join([item.text for item in items.select("td")[:2]])
    print(proxy_list)

hasta ahi muy lindo todo... ahora vamos a pegarle a la url...

Código [Seleccionar]


import requests

validador = "https://www.espanol.skyscanner.com/g/browseservice/dataservices/browse/v3/bvweb/AR/ARS/es-MX/destinations/es/ar/2019-06-22/?profile=minimalcityrollupwithnamesv2&include=image;holiday&apikey=8aa374f4e28e4664bf268f850f767535"

proxy = '179.124.240.199:40524' # se podria hacer la iteracion de arriba pero vamos a probar con esta..
print("Request: ")
try:
    response = requests.get(validador,proxies={"http": proxy, "https": proxy})
    print(response.json())
except:
    print("Connnection error")

una de las respuestas que me da
{'redirect_to': '/sttc/px/captcha/index.html?url=Lw==&uuid=ace23420-70e8-11e9-9e16-99c145471a63&vid=', 'reason': 'blocked'}

por favor ayuda :(

Título: Re:AYUDA hace un mes casi intentando hacer scraping
Publicado por: DtxdF en Mayo 08, 2019, 02:47:12 PM

@lemos.ema

Hola, no creo que la redirección sea culpa del proxy, ni de python, le colocaste un agente de usuario incorrecto, por lo tanto la página creerás que eres un bot o alguien que trata de hacer "user-agent spoofing".

Para verificar si es culpa del agente de usuario, coloca uno que sea exactamente igual al de un navegador muy conocido.

Para que obtener más conocimientos acerca del agente de usuario visita: https://developer.mozilla.org/es/docs/Web/HTTP/Headers/User-Agent

Título: Re:AYUDA hace un mes casi intentando hacer scraping
Publicado por: ??????? en Mayo 08, 2019, 02:54:28 PM

Buenas, si has probado lo anterior que han dicho, pero te sigue sin funcionar, lo que puedes hacer es utilizar proxys con Tor. Te comparto este enlace para que lo puedas ver. El link es este:

https://techmonger.github.io/68/tor-new-ip-python/

Espero que te sirva, saludos!

Título: Re:AYUDA hace un mes casi intentando hacer scraping
Publicado por: DtxdF en Mayo 08, 2019, 08:11:34 PM

@Kirari (https://underc0de.org/foro/index.php?action=profile;u=92682)

Espléndido, te recomiendo que hagas un aporte en python, seré el primero que lo va a ver.

Underc0de - La Casa de los Informáticos

Foros Generales => Dudas y pedidos generales => Mensaje iniciado por: lemos.ema en Mayo 08, 2019, 11:45:01 AM