Underc0de

Foros Generales => Dudas y pedidos generales => Mensaje iniciado por: ToracosLabs en Julio 16, 2016, 11:50:50 AM

Título: Ayuda con un web spider
Publicado por: ToracosLabs en Julio 16, 2016, 11:50:50 AM
 Saludos amigos programadores, otra vez acudo al foro en busca de vuestra ayuda:

En esta ocasión estoy diseñando un web spider para extraer información de esta página: https://www.udemy.com/php-y-mysql/

El problema es que al extraer con php mediante cUrl no se me carga el contenido de "Los estudiantes que vieron este curso también vieron..." que es lo que me interesa. En su lugar aparece "loading...".

¿Hay alguna manera de cargar ese contenido?, ¿o cUrl no puede extraerlo debido a que es javascript?

Gracias y espero respuestas!!!! ;)
Título: Re:Ayuda con un web spider
Publicado por: elseñorx en Julio 16, 2016, 04:04:35 PM
Esa pagina tien cursos bastante buenos gratis y unos de paga, pero si quieres el contenido de uno de paga no podras acceder sabia que todos sus cursos estan youtube date una vuelta por ay y tal vez encuentres el que quieres

Enviado desde mi GT-I9060M mediante Tapatalk

Título: Re:Ayuda con un web spider
Publicado por: ToracosLabs en Julio 17, 2016, 11:55:44 AM
Gracias por la respuesta, pero creo que me has entendido mal, yo no quiero descargar los cursos, simplemente deseo extraer todos los títulos de lo cursos de la web y como los permalinks están en funcion del nombre y no de una id, hay que ir uno por uno scrapeando. El problema reside en que no se me carga con cUrl el contenido de la derecha al ser javascript.

Saludos y espero respuestas!
Título: Re:Ayuda con un web spider
Publicado por: seth en Julio 19, 2016, 06:30:56 PM
Esos datos se cargan con javascript pegandole a una api

https://www.udemy.com/api-2.0/recommended-courses/?fields%5Bcourse%5D=@Default (https://underc0de.org/foro/index.php?action=profile;u=49898),avg_rating_recent,num_reviews,promotion_price,image_100x100,visible_instructors&page=1&page_size=3&source_action=view&source_object=course&source_object_id=672600&source_page=clp



Lo que vas a tener que cambiar es el id de curso, que lo sacas del link que pasaste vos:
Citar

    <div class="one-col-landing ud-page "
         data-content-group="Landing Page"
         data-page-name="landing-page-v41"
         data-course-id="672600">

Para ver este tipo de cosas podes usar live http headers, postman o burp
Título: Re:Ayuda con un web spider
Publicado por: fleshworm en Julio 19, 2016, 06:48:29 PM
Saludos, bueno ya que sabes que es javascript es un comienzo necesitarias crear una rutina que identifique los parametros que el javascript utiliza para las recomendaciones utilizando los nombres de usuario o miembros y ademas te identifique al indexar el documento web como comportarze al extraer la informacion de el widget de sugerencias si no te he entendido mal.

Pd: En tu web-spider necesitarias que al comenzar a indexar el documento atravez del cURL utilizar algo de DOM para identificar los elementos de javascript separandolos del CSS, espero te sirva.