comment
IRC Chat
play_arrow
Este sitio utiliza cookies propias y de terceros. Si continúa navegando consideramos que acepta el uso de cookies. OK Más Información.

[BOT] Spider indexador

  • 5 Respuestas
  • 2467 Vistas

0 Usuarios y 1 Visitante están viendo este tema.

Desconectado linkgl

  • *
  • Underc0der
  • Mensajes: 45
  • Actividad:
    0%
  • Reputación 0
    • Ver Perfil
« en: Agosto 17, 2011, 12:42:08 pm »
Este es un bot spider indexador al cual llamo lindexer (estúpido lo sé...) pero bueno el proyecto consiste en que le das una url inicial al bot y este se mete a los enlaces que encuentre en el sitioweb y los va indexando (o guardando en un txt) y despues se mete a los enlaces de los enlaces y sigue indexando hasta que ya no encuentre más entonces le das una url distinta y sigue indexando, (Aún lo estoy mejorando para que busque mas y mas pero ya funciona bastante bien:

Código: PHP
  1. <?php
  2. /*
  3. @Coder: Linkgl
  4.   @Fecha: 14/08/2011
  5. */
  6. function simpleono($cadena)
  7. {
  8.   $p1=strpos($cadena,"\"");
  9.   $p2=strpos($cadena,"'");
  10.   if($p1!==false && $p2!==false)
  11.   {
  12.     if($p1<$p2)
  13.       return $p1;
  14.     else
  15.       return $p2;
  16.   }
  17.   else
  18.     return 0;
  19. }
  20.  
  21. function searchanddestroy($cadena,$buscar,$separador)
  22. {
  23.   $arr=explode($cadena,$separador);
  24.   for($i=0;$i<count($arr);$i++)
  25.   {
  26.     if($arr[$i]==$buscar)
  27.       return true;
  28.   }
  29.   return false;
  30. }
  31. function generador($direccion)
  32. {  
  33. $p_inicio=$direccion;
  34. $enlaces=file_get_contents("enlaces.txt");
  35. $c_inicio=file_get_contents($p_inicio);
  36. $c1=strpos($c_inicio,"<a href=");
  37. //BUSCAMOS UN ENLACE
  38. while($c1!==false)
  39. {
  40.   $curret_pos=$c1;
  41.   //INTENTAMOS EXTRAER EL ENLACE
  42.   $url=substr($c_inicio,$c1+9);
  43.   $c2=simpleono($url);
  44.   $enlaces=file_get_contents("enlaces.txt");
  45.   if($c2!==false)
  46.   {
  47.     //echo $url."before";
  48.     $url=substr($url,0,$c2);
  49.     if(strpos($url,"http://")===0 || strpos($url,"www.")===0 || strpos($url,"https://")===0)
  50.     {
  51.       if($url!=$p_inicio)
  52.       {
  53.         if(strpos($enlaces,$url)===false)
  54.         {
  55.           $fp=fopen("enlaces.txt","a");
  56.           fwrite($fp,$url."\n");
  57.           fclose($fp);
  58.           flush();sleep(1);flush();
  59.           echo $url."<br>";
  60.           generador($url);
  61.         }
  62.       }
  63.     }
  64.     else
  65.     {
  66.       $newurl=$p_inicio.$url; //lolz.com/#
  67.       if($url!="")
  68.       {  
  69.         if(searchanddestroy($enlaces,$newurl,"\n")===false && $url!="#")
  70.         {
  71.           $fp=fopen("enlaces.txt","a");
  72.           fwrite($fp,$newurl."\n");
  73.           fclose($fp);
  74.           flush();sleep(1);flush();
  75.           echo $newurl."<br>";
  76.           generador($newurl);
  77.         }
  78.       }
  79.     }
  80.   }
  81.   else
  82.   {
  83.     echo "Cierre de etiqueta no encontrado<br>";
  84.   }
  85.   $c1=strpos($c_inicio,"<a href=",$c1+1);
  86. }
  87. }
  88. if(!isset($_POST['sitioweb']) || empty($_POST['sitioweb']))
  89. {
  90. ?>
  91. <form action="#" method="post">
  92. <input type="text" name="sitioweb">
  93. <input type="submit" value="indexar!">
  94. </form>
  95. <?php
  96. }
  97. else
  98. {
  99. echo "Iniciando<br>";
  100. generador($_POST['sitioweb']);
  101. echo "No hay más enlaces<br>";
  102. }
  103. ?>
  104.  

Imagen como va indexando:

Desconectado Snifer

  • *
  • Underc0der
  • Mensajes: 1439
  • Actividad:
    0%
  • Reputación 1
  • Snifer@L4b's
    • Ver Perfil
    • Snifer@L4bs
  • Twitter: sniferl4bs
« Respuesta #1 en: Agosto 22, 2011, 09:40:23 pm »
hey bro que buena tú araña creo que le daré un buen uso.. je je ahora a copiar a la pc uno a uno
http://www.sniferl4bs.com


Llaman traidor a la persona que evito que caiga el foro, gente bruta!



Desconectado linkgl

  • *
  • Underc0der
  • Mensajes: 45
  • Actividad:
    0%
  • Reputación 0
    • Ver Perfil
« Respuesta #2 en: Agosto 24, 2011, 12:03:34 am »
hey bro que buena tú araña creo que le daré un buen uso.. je je ahora a copiar a la pc uno a uno

Gracias :P ando mejorando algunos detalles y publico la mas actualizada  ;)

Desconectado Acidkode

  • *
  • Underc0der
  • Mensajes: 43
  • Actividad:
    0%
  • Reputación 0
  • 1f u c4n r34d th1s u r34lly n33d t0 g37 l41d
    • Ver Perfil
    • Email
« Respuesta #3 en: Mayo 13, 2013, 05:05:35 pm »
genial  :D


Desconectado mr.blood

  • *
  • Underc0der
  • Mensajes: 73
  • Actividad:
    0%
  • Reputación 0
    • Ver Perfil
  • Skype: red_ink@hotmail.es
« Respuesta #4 en: Mayo 13, 2013, 07:26:12 pm »
Trata de usar Expresiones regulares, a mi modo de ver es mas limpio y mucho mas simple modificarlo posteriormente ;).

Muy buen trabajo!

Sa1uDoS

Desconectado D4rkC0d3r

  • *
  • Underc0der
  • Mensajes: 202
  • Actividad:
    0%
  • Reputación 0
  • \xeb\x16\x5e\x31\xd2\
    • Ver Perfil
    • Ethical Hacking, Malware Analysis, Disinfection Techniques and more...
« Respuesta #5 en: Mayo 14, 2013, 07:35:54 am »
Excelente aporte, gracias por compartir...

Saludos!!  ;D

D4rkC0d3r

 

¿Te gustó el post? COMPARTILO!



Spider web con Curl

Iniciado por Oggy

Respuestas: 1
Vistas: 1361
Último mensaje Diciembre 03, 2012, 09:09:36 pm
por alexander1712