[SOLUCIONADO] Me están haciendo scraping

Iniciado por lemos.ema, Mayo 08, 2019, 11:45:01 AM

Tema anterior - Siguiente tema

0 Miembros y 1 Visitante están viendo este tema.

Mayo 08, 2019, 11:45:01 AM Ultima modificación: Junio 10, 2019, 09:41:36 AM por xyz
Hola que tal?
les vengo a contar sobre mi problema, hace un mes intento intento intento y no puedo hacer scraping a una url. Mi idea es inventar un sistema de ir cambiando los proxies y cuando te bajan uno.. cambiar al otro y seguir con el scraping (o cualquier otra forma que permita hacer scraping ilimitado) . Es importante que si alguien me ayuda( ojala si ) intente hacerlo con el link que pase reiteradas veces a ver si funciona, por que me a pasado que proponen otros links y no la url que he mandado.
en este scrip buscamos los proxies....

Código: php
import requests
from bs4 import BeautifulSoup
sourceProxy = requests.get('https://free-proxy-list.net/', headers={'User-Agent':'Mozilla/5.0'})
bSoup = BeautifulSoup(sourceProxy.text,"lxml")
for items in bSoup.select("tbody tr"):
    proxy_list = ':'.join([item.text for item in items.select("td")[:2]])
    print(proxy_list)


hasta ahi muy lindo todo... ahora vamos a pegarle a la url...
Código: php

import requests

validador = "https://www.espanol.skyscanner.com/g/browseservice/dataservices/browse/v3/bvweb/AR/ARS/es-MX/destinations/es/ar/2019-06-22/?profile=minimalcityrollupwithnamesv2&include=image;holiday&apikey=8aa374f4e28e4664bf268f850f767535"

proxy = '179.124.240.199:40524' # se podria hacer la iteracion de arriba pero vamos a probar con esta..
print("Request: ")
try:
    response = requests.get(validador,proxies={"http": proxy, "https": proxy})
    print(response.json())
except:
    print("Connnection error")


una de las respuestas que me da
{'redirect_to': '/sttc/px/captcha/index.html?url=Lw==&uuid=ace23420-70e8-11e9-9e16-99c145471a63&vid=', 'reason': 'blocked'}

por favor ayuda :(

@lemos.ema

Hola, no creo que la redirección sea culpa del proxy, ni de python, le colocaste un agente de usuario incorrecto, por lo tanto la página creerás que eres un bot o alguien que trata de hacer "user-agent spoofing".

Para verificar si es culpa del agente de usuario, coloca uno que sea exactamente igual al de un navegador muy conocido.

Para que obtener más conocimientos acerca del agente de usuario visita: No tienes permitido ver los links. Registrarse o Entrar a mi cuenta
PGP :: <D82F366940155CB043147178C4E075FC4403BDDC>

~ DtxdF

Mayo 08, 2019, 02:54:28 PM #2 Ultima modificación: Mayo 08, 2019, 02:56:08 PM por Kirari
Buenas, si has probado lo anterior que han dicho, pero te sigue sin funcionar, lo que puedes hacer es utilizar proxys con Tor. Te comparto este enlace para que lo puedas ver. El link es este:

No tienes permitido ver los links. Registrarse o Entrar a mi cuenta

Espero que te sirva, saludos!

@No tienes permitido ver los links. Registrarse o Entrar a mi cuenta

Espléndido, te recomiendo que hagas un aporte en python, seré el primero que lo va a ver.
PGP :: <D82F366940155CB043147178C4E075FC4403BDDC>

~ DtxdF