Algoritmos Crawler-Arañitas de Google (Búsqueda)

Iniciado por Denisse, Enero 15, 2016, 05:49:25 AM

Tema anterior - Siguiente tema

0 Miembros y 1 Visitante están viendo este tema.

Enero 15, 2016, 05:49:25 AM Ultima modificación: Enero 15, 2016, 10:42:16 AM por blackdrake

Hola chic@s en este post vamos a ver como realizar una búsqueda con comandos en Google pero con algoritmos crawler o arañas de la web.





El motor de búsqueda de Google está en constante crecimiento. Actualmente recoge más de 30 millones de millones de páginas, maneja alrededor de 100 millones de gigabytes, recibe unos 100.000 millones de búsquedas mensuales. Por lo que el al realizar dichas búsquedas podemos ver infinidad de páginas que no necesariamente contengan lo que buscamos y solo teniendo una pérdida de tiempo considerable en nuestras tareas.

Pero que son los crawler

Un crawler (también conocido como Recolector, Web spider o robot del Web) es un programa que hojea la Web de una manera metódica, automatizada, esto para filtrando la información por importancia.
El crawler visita las URLs, identifica todos los hipervínculos en la página y los agrega a la lista de URLs así evitando información inútil o basura que nos desvíe de nuestro objetivo, también reduciendo el tiempo de búsqueda y evitando -volvernos locos entre tanta información-, indexando las páginas con las coincidencias encontradas

En ocasiones cuando escribimos el tema/ título de nuestro interés simplemente buscamos ya sea un libro, una imagen, un audio, un documento, es decir específicamente un tipo de archivo, para esto podemos obtener ayuda de las -arañitas de la web-

¿Y como es que se utiliza este método?
Para este post yo elegí el tema -Beatles-

Con respecto a -Beatles- lanzamos la primera búsqueda sera todo lo que se encuentre en la Web con la excepción de que solo sea formatos que deseamos.

Entonces con ayuda de las arañitas de la web realizamos lo siguiente:

filetype:pdf + Beatles






filetype:doc + Beatles



filetype:mp3 + Beatles

filetype:xls + Beatles

filetype:ppt + Beatles

Ese es el algoritmo de búsqueda de google. Ahora bien podemos encontrar directorios llenos de contenido de cualquier extensión o formato de archivos.

Una vez comprendiendo la sencillez de este algoritmo podríamos pasar horas descubriendo datos/información que en ningún lugar encontraríamos tan fácil y rápido como de esta forma.

El segundo algoritmo es el siguiente:

intitle:index.of  +(pdf|doc) + Beatles -htm -html -php -asp

Defragmentando este segundo algoritmo veamos que significa:

intitle:index.of  <— Significa que en va a encontrar páginas con el titulo que diga index.of (regularmente son directorios)

+ (pdf|doc) <—  Significa que esta encontrando archivos que sean pdf o doc, también podemos agregar más formatos, utilizando el separador '|'

+ Beatles  <—  Buscando nuestro tema de interés , también pueden usar el mismo formato de los archivos: + (jonh lenon|Beatles) + y así buscar temas relacionados también.

-htm -html -php -asp  <—  Quiere decir que esta excluyendo páginas de esos formatos, ya que así damos con directorios directamente para las descargas.




Formatos/extensiones de archivos:

Adobe Portable Document Format (pdf)
Adobe PostScript (ps)
Lotus 1-2-3 (wk1, wk2, wk3, wk4, wk5, wki, wks, wku)
Lotus WordPro (lwp) • MacWrite (mw)
Microsoft Excel (xls)
Microsoft PowerPoint (ppt)
Microsoft Word (doc)
Microsoft Works (wks, wps, wdb)
Microsoft Write (wri)
Rich Text Format (rtf)
Text (ans, txt)

Evidentemente hay otras maneras de realizar búsquedas indexadas en Google pero estas me parecieron sencillas y concretas para obtener fácilmente lo que realmente queremos que nos muestre Google.

Fuente:
Taringa.net

Chic@s para finalizar me gustaría saber si

¿Han utilizado estos algoritmos?

¿Les ha sido útil?

Gracias por dedicar tiempo en leer.

Bonito día para tod@s

"La simplicidad llevada al extremo se convierte en elegancia"
     - Jon Franklin

También está el inurl:"algo_x", que lo que hace es buscar en la url de las páginas web.

Llegué a usar el typefile para buscar libros de estudiar, pero fué más para curiosear y sentirse el h4X0r. xD

Saludos!



Hola @No tienes permitido ver los links. Registrarse o Entrar a mi cuenta si es más efectivo en la búsqueda de libros de cultura general, pero también se puede espeficiar el formato del archivo que requieres, en el post solo menciono estas ya que me parecieron sencillas para obtener fácilmente lo que realmente queremos que nos muestre Google.

En cuanto a lo que mencionas de
(url -inurl:) es opcional y se puede omitir,
(titulo -intitle:) puede usarse en lugar de
(url – inurl:) tieniendo efectos similares.
Solo usa  Google.
Gracias por tu comentario.

Bonito día :D