Hola que tal , ya hace dias estoy con esto y no hay caso nose como hacerlo.
intento hacer requests a la siguiente pagina pero siempre despues de un tiempo me bloquean el get... me gustaria que cuando sea asi pueda cambiar de proxie y seguir escrapeando . Se que ustedes son mi salvacion y confio en este FORO !!!!!!!! nose si esta bien usar proxies y a la vez user agent por favor ayuda
Código: text
intento hacer requests a la siguiente pagina pero siempre despues de un tiempo me bloquean el get... me gustaria que cuando sea asi pueda cambiar de proxie y seguir escrapeando . Se que ustedes son mi salvacion y confio en este FORO !!!!!!!! nose si esta bien usar proxies y a la vez user agent por favor ayuda
import requests
from bs4 import BeautifulSoup
from random import choice
import random </code>
def get_proxy():
proxiDomain= 'https://free-proxy-list.net/'
r = requests.get(proxiDomain)
soup= BeautifulSoup(r.content,'html.parser')
table=soup.find('table',{'id':'proxylisttable'})
nuevo=[]
for row in table.find_all('tr'):
columns= row.find_all('td')
try:
nuevo.append({'https':("%s:%s" %(columns[0].get_text(),columns[1].get_text()))})
except:
pass
return choice(nuevo)
proxy=get_proxy()
desktop_agents = ['Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36',
'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36',
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36',
'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/602.2.14 (KHTML, like Gecko) Version/10.0.1 Safari/602.2.14',
'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36',
'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36',
'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36',
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36',
'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36']
url = "https://www.espanol.skyscanner.com/g/browseservice/dataservices/browse/v3/bvweb/AR/ARS/es-MX/destinations/ar/anywhere/2019-07-10/?profile=minimalcityrollupwithnamesv2&include=image;holiday&apikey=8aa374f4e28e4664bf268f850f767535"
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}
headers = {
"referer": "https://www.espanol.skyscanner.com/transporte/vuelos-desde/buea/?adults=1&children=0&adultsv2=1&childrenv2=&infants=0&cabinclass=economy&rtn=0&preferdirects=false&outboundaltsenabled=false&inboundaltsenabled=false&ref=home",
"user-agent" :random.choice(desktop_agents),
"x-requested-with": "XMLHttpRequest"}
response = requests.get( url,headers=headers,proxies=proxy)
if response.status_code == 200:
print ("ok")
else:
print ("error 400")
print(response.json())