Tengo una pagina web que consulta números de cédula y deseo ver la misma información pero con una pagina creada por mi persona la idea es no sobrecargar la pagina fuente y que no me van la ip de hay mi pregunta. Puedo hacer scraping sin ser detectado? Alguna idea que me pueda ayudar.
Hola Ronluas,
No creo que se fijen mucho en la IP, generalmente la IP que la pagina va a ver será de del ISP.
Los logs de un servidor tipo nginx y también apache si guarda información de la cabecera User-Agent y esta es la que tu programa debe enviar para que simulé ser un navegación normal.
Hola @ronluas (https://underc0de.org/foro/index.php?action=profile;u=64797),
Tal y como ha dicho @tr0n (https://underc0de.org/foro/index.php?action=profile;u=68882), te recomiendo que modifiques también el User-Agent de tu script.
Sobre el tema de la IP, lo más fácil es:
A) Que uses una lista de proxys y que cada vez se conecte a uno diferente (el inconveniente de esto es ir actualizando la lista si se van cayendo).
B) Utilices el script a través de tor, de ésta manera, no hace falta que mantengas una lista de proxys etc...
C) En caso de que tengas alguna VPN, pues usarla :)
Sin duda, la B es mucho más sencilla.
Un saludo.