Ayuda con un web spider

Iniciado por ToracosLabs, Julio 16, 2016, 11:50:50 AM

Tema anterior - Siguiente tema

0 Miembros y 1 Visitante están viendo este tema.

Julio 16, 2016, 11:50:50 AM Ultima modificación: Julio 16, 2016, 11:56:45 AM por Gabriela
 Saludos amigos programadores, otra vez acudo al foro en busca de vuestra ayuda:

En esta ocasión estoy diseñando un web spider para extraer información de esta página: No tienes permitido ver los links. Registrarse o Entrar a mi cuenta

El problema es que al extraer con php mediante cUrl no se me carga el contenido de "Los estudiantes que vieron este curso también vieron..." que es lo que me interesa. En su lugar aparece "loading...".

¿Hay alguna manera de cargar ese contenido?, ¿o cUrl no puede extraerlo debido a que es javascript?

Gracias y espero respuestas!!!! ;)

Esa pagina tien cursos bastante buenos gratis y unos de paga, pero si quieres el contenido de uno de paga no podras acceder sabia que todos sus cursos estan youtube date una vuelta por ay y tal vez encuentres el que quieres

Enviado desde mi GT-I9060M mediante Tapatalk


Gracias por la respuesta, pero creo que me has entendido mal, yo no quiero descargar los cursos, simplemente deseo extraer todos los títulos de lo cursos de la web y como los permalinks están en funcion del nombre y no de una id, hay que ir uno por uno scrapeando. El problema reside en que no se me carga con cUrl el contenido de la derecha al ser javascript.

Saludos y espero respuestas!

Esos datos se cargan con javascript pegandole a una api

No tienes permitido ver los links. Registrarse o Entrar a mi cuenta@No tienes permitido ver los links. Registrarse o Entrar a mi cuenta,avg_rating_recent,num_reviews,promotion_price,image_100x100,visible_instructors&page=1&page_size=3&source_action=view&source_object=course&source_object_id=672600&source_page=clp



Lo que vas a tener que cambiar es el id de curso, que lo sacas del link que pasaste vos:
Citar

    <div class="one-col-landing ud-page "
         data-content-group="Landing Page"
         data-page-name="landing-page-v41"
         data-course-id="672600">

Para ver este tipo de cosas podes usar live http headers, postman o burp

Saludos, bueno ya que sabes que es javascript es un comienzo necesitarias crear una rutina que identifique los parametros que el javascript utiliza para las recomendaciones utilizando los nombres de usuario o miembros y ademas te identifique al indexar el documento web como comportarze al extraer la informacion de el widget de sugerencias si no te he entendido mal.

Pd: En tu web-spider necesitarias que al comenzar a indexar el documento atravez del cURL utilizar algo de DOM para identificar los elementos de javascript separandolos del CSS, espero te sirva.


Gallery @No tienes permitido ver los links. Registrarse o Entrar a mi cuenta -> No tienes permitido ver los links. Registrarse o Entrar a mi cuenta
Note: Im a Oracle enthusiast (Java, Javascript) with some experience under a Perl implementation platform or PHP