Menú

Mostrar Mensajes

Esta sección te permite ver todos los mensajes escritos por este usuario. Ten en cuenta que sólo puedes ver los mensajes escritos en zonas a las que tienes acceso en este momento.

Mostrar Mensajes Menú

Temas - Mr. Foster

#1
Zona Webmaster / [SEO] Sobre robots.txt
Septiembre 20, 2013, 01:48:27 AM
Bueno en lo que estaba ultimamente lei un articulo y encontre que podria ser de gran ayuda compartirlo, o acerco al foro.

Cómo bloquear o eliminar páginas con un archivo robots.txt:

Los archivos robots.txt restringen el acceso a un sitio por parte de los robots de motores de búsqueda que rastrean la Web. Estos robots están automatizados y, antes de acceder a las páginas de un sitio, verifican si existe un archivo robots.txt que les impida el acceso a determinadas páginas. Aunque todos los robots acreditados respetan las directivas del archivo robots.txt, algunos pueden interpretarlas de forma diferente. Sin embargo, el archivo robots.txt no es obligatorio y algunos emisores de spam y otros malhechores pueden ignorarlo. Por este motivo, es recomendable proteger la información confidencial con contraseñas.

Para consultar las URL que Google no ha podido rastrear, accede a la página URL bloqueadas de la sección de Rastreo de Herramientas para webmasters de Google.

El archivo robots.txt solo es necesario si tu sitio incluye contenido que no deseas que los motores de búsqueda indexen. Si va a permitir la indexación de su sitio por completo, el archivo robots.txt no es necesario (ni siquiera uno vacío).

Si bien Google no rastreará ni indexará el contenido de las páginas bloqueadas por robots.txt, sí que indexará las URL que encuentre en otras páginas de la Web. Como consecuencia, la URL de la página y otros datos disponibles públicamente, como el texto de anclaje en enlaces que dirigen al sitio o el título de Open Directory Project (www.dmoz.org), podrían aparecer en los resultados de búsqueda de Google.

Para usar un archivo robots.txt, necesitarás tener acceso al directorio raíz de tu dominio (si no estás seguro, consúltalo con tu proveedor de alojamiento web). Si no tienes acceso al directorio raíz de un dominio, puedes restringir el acceso al mismo utilizando la metaetiqueta "robots".

*Para impedir que aparezca cualquier contenido de una página en el índice de páginas web de Google, incluso si está vinculado a otros sitios, se puede utilizar una metaetiqueta "noindex" o una etiqueta x-robots-tag. Siempre que Googlebot rastree la página, verá la metaetiqueta "noindex" y no incluirá esa página en el índice de páginas web. La cabecera HTTP "X-Robots-Tag" resulta especialmente útil para limitar la indexación de archivos que no sean HTML, como archivos gráficos y otro tipo de documentos.



Como crear un archivo robots.txt:


El archivo robots.txt más simple utiliza dos reglas:

    User-Agent: el robot al que se aplica la siguiente regla
    Disallow: la URL que quieres bloquear

Estas líneas se consideran una única entrada en el archivo. Puedes incluir todas las entradas que quieras, así como varias líneas Disallow y varios user-agents en una misma entrada.

Cada sección del archivo robots.txt es independiente y no se genera a partir de secciones anteriores. Por ejemplo:

Código: text
User-agent: *

Disallow: /carpeta1/

User-Agent: Googlebot

Disallow: /carpeta2/


En este ejemplo, las únicas URL que no puede rastrear el robot de Google son las de /carpeta2/.

User-agents y robots

Un user-agent es un robot específico del motor de búsqueda. La base de datos de robots web incluye muchos robots comunes. Puedes configurar una entrada para que se aplique a un robot específico (mediante su nombre) o para que se aplique a todos los robots (mediante un asterisco). El aspecto de una entrada que se aplica a todos los robots es el siguiente:

Código: text
User-agent: *


Google utiliza varios robots diferentes (user-agents). El robot que utilizamos para nuestra búsqueda web es Googlebot. El resto de nuestros robots, como Googlebot-Mobile y Googlebot-Image, siguen las reglas configuradas para Googlebot, aunque también pueden definirse reglas específicas para ellos.
Bloqueo de user-agents

La línea Disallow indica las páginas que quieres bloquear. Puedes insertar una URL específica o un patrón. La entrada debe comenzar con una barra inclinada (/).

    Para bloquear todo el sitio, utilice una barra inclinada.

Código: text
 Disallow: /

    Para bloquear un directorio y todo lo que contiene, inserta una barra inclinada después del nombre del mismo.

   
Código: text
Disallow: /directorio-sintítulo/

    Para bloquear una página, insértala después de la línea Disallow.

   
Código: text
 Disallow: /archivo_privado.html


    Para eliminar una imagen de Google Imágenes, añada lo siguiente:

Código: text
User-agent: Googlebot-Image

    Disallow: /imagenes/perros.jpg

    Para eliminar todas las imágenes de su sitio de Google Imágenes, añada lo siguiente:

   
Código: text
 User-agent: Googlebot-Image

    Disallow: /


    Para bloquear archivos de un determinado tipo (por ejemplo, .gif), añade lo siguiente:

   
Código: text
User-agent: Googlebot
    Disallow: /*.gif$

    Para evitar que se rastreen las páginas de su sitio, sin impedir que se muestren anuncios de AdSense en esas páginas, inhabilite el acceso de todos los robots que no sean de Mediapartners-Google. Esta opción impide que las páginas aparezcan en los resultados de búsqueda, pero permite que el robot Googlebot-Mediapartners las analice para determinar los anuncios que se publicarán. El robot Googlebot-MediaPartners no comparte páginas con otros user-agents de Google. Por ejemplo:

   
Código: text
 User-agent: *
    Disallow: /

    User-agent: Mediapartners-Google

    Allow: /

Ten en cuenta que en las directivas se distingue entre mayúsculas y minúsculas. Por ejemplo, DIsallow: /archivo_basura.asp bloquearía No tienes permitido ver los links. Registrarse o Entrar a mi cuenta, pero permitiría No tienes permitido ver los links. Registrarse o Entrar a mi cuenta. El robot de Google ignorará los espacios en blanco (en particular, las líneas vacías) y las directivas desconocidas en robots.txt.

El robot de Google permite enviar archivos de sitemaps mediante el archivo robots.txt.
Concordancia mediante patrones

Googlebot respeta algunas concordancias mediante patrones, aunque no todos los motores de búsqueda lo hacen.

    Puedes utilizar un asterisco (*) para que la concordancia se establezca con una secuencia de caracteres. Por ejemplo, para bloquear el acceso a todos los subdirectorios que empiecen por "privado":

Código: text
  User-agent: Googlebot
    Disallow: /privado*/

    Para bloquear el acceso a todas las URL que incluyan un signo de interrogación (?) (más concretamente, cualquier URL que empiece por el nombre de tu dominio, seguido de una cadena, un signo de interrogación y una cadena), añade lo siguiente:

   
Código: text
User-agent: Googlebot
    Disallow: /*?


    Para especificar la concordancia con el final de la URL, utilice $. Por ejemplo, para bloquear una URL que termine en .xls:

   
Código: text
 User-agent: Googlebot 
    Disallow: /*.xls$


    Puede utilizar esta concordancia mediante patrones en combinación con la directiva Allow. Por ejemplo, si el signo ? indica el ID de una sesión, puedes excluir todas las URL que lo contengan para asegurarte de que Googlebot no rastree páginas duplicadas. Sin embargo, las URL que finalizan con dicho símbolo podrían ser la versión de la página que quieres incluir. En ese caso, configure su archivo robots.txt del siguiente modo:

   
Código: text
 User-agent: *
    Allow: /*?$
    Disallow: /*?


    La directiva Disallow: / *? bloqueará cualquier URL que incluya el símbolo ?. Concretamente, bloqueará todas las URL que comiencen por el nombre de tu dominio, seguido de cualquier cadena, un signo de interrogación y cualquier cadena.

    La directiva Allow: /*?$ permitirá cualquier URL que finalice con el símbolo ?. Concretamente, admitirá cualquier URL que comience por el nombre de tu dominio, seguido de cualquier cadena y el símbolo ?, sin caracteres después de este último.

Guarda tu archivo robots.txt descargándolo o copiando el contenido en un archivo de texto y guardándolo como robots.txt. Guarda el archivo en el directorio de nivel superior de tu sitio. El archivo robots.txt debe ubicarse en la raíz del dominio y denominarse "robots.txt". Si se ubica en subdirectorios, no será válido, ya que los robots solo lo buscan en la raíz del dominio. Por ejemplo, No tienes permitido ver los links. Registrarse o Entrar a mi cuenta es una ubicación válida, pero No tienes permitido ver los links. Registrarse o Entrar a mi cuenta no lo es.

El articulo en si fue extraido de supportgoogle, en forma de compartir y acercar conocimiento.
#2
Buenos dias, he estado siguiendo pasos de un gran libro compartido anteriormente y he quedado "pegado" en el tema de las indexeddb en HTML5, alguien que sepa que pueda hacer un mini-tutorial apartado, le agradeceria solo tocar el tema de indexeddb, ya que no encuentro como insertar los datos y asi poder manipulandolos, no se que estare haciendo mal porque hasta el momento habia estado siguiendo al pie de la letra todo lo del tutorial  :-[.

Les estaria agradecido por compartir un poco de conocimiento :c.
#3
Buenas he decidido plantear mi duda, es la siguiente, tengo un notebook  y un computador de escritorio (en el trabajo), en los cuales me conecto y puedo acceder a la configuracion del router mediante la direccion en el navegador, he intentado ya abrir los puertos en reiteradas ocasiones, en el router (NAT), creando reglas en Windows 7 (los dos son windows 7) y no pasa nada, ni por scanner puedo obtener siquiera un puerto abierto aparte de los predefinidos, (25,80,139,445,etc), el router del ordenador de escritorio es un NUCOM R5000UN en el cual he abierto los puertos ya, y en el notebook es un Zte W300 series, en ninguno de los dos puedo conectar un RAT, es solo la parte de los puertos ya que en otros casos (con modem y diferentes router) he podido utilizar Spy-Net y la duda es ¿como poder conectar el "troyano" (cualquiera spy-net, poison ivy, bifrost, etc) por decirlo asi, con algun puerto de otro programa?, Utorrent, Emule, etc., o cambiar de troyano por algun otro que tenga otro tipo de conexión no se si me explico.

Eso es todo y ojala me ayudara a salir de la duda. Saludos  :)
#4
Una pregunta, para ejecutar subterfuge desde Backtrack 5 R3 es necesario instalarlo?, porque al instalarlo y tratar de ejecutarlo desde la terminal tipeando 'subterfuge' me aparece el siguiente mensaje:

" Traceback (most recent call last):
    File "bin/subterfuge", line 6, in <module>
        from version info import *
  ImportError: No module named versioninfo "

Probe instalando la version 5.0, ya que cuando lo abro normal iniciando una sesion de backtrack y tipeando subterfuge en la terminal, me dirijo al localhost e inicia, pero espero y espero y no sucede nada , estoy conectado a una red sin seguridad con un adaptador rtl 8187, backtrack 5 r3 gnome 32.

No se si alguien sabe que me pase el dato  ;D, saludos.
#5
Buenas me he encontrado con el siguiente problema, tengo un "programa" un ejecutable que en realidad es un BAT, el cual solo corre en windows XP o anteriores, y deseo ejecutarlo en Windows 7 pero no puedo hacerlo porque me arroja el error de que es una aplicacion incompatible, no puedo solucionarlo desde el solucionador de problemas directamente y quisiera saber, ya que no soy muy entendido en el tema si se puede editar su codigo para poder correrlo en windows 7 directamente, ya que ni el windows xp mode me funciona en windows 7, o tendre que instalar windows xp en dicho computador, esa es mi gran duda. Saludos
#6
Buenas noches, estaba visitando una pagina "x" cuando de repente vi que visualizaba un error, entonces me di el tiempo de aplicar una sqli, arrojo los datos de usuarios, el admin, etc, pero no he podido encontrar el admin panel, hasta ahora he probado con DirBuster que suele ser para mi la mejor opcion y nada.

Al entrar en el enlace /sql/login.php que me entrega como login DirBuster lo unico que me aparece es:

<html>
  <head>...</head>
    <body>0</body>
</html>

Nada mas que eso, espero y agradezco su ayuda ;). Saludos
#7
Dudas y pedidos generales / [Ayuda] Duda al decifrar
Octubre 29, 2012, 03:19:01 AM
Buenas noches, al efectuar sqlmap en una pagina, esta me arrojo el user y el pass, pero este ultimo de esta forma
"113ecb5b7cb20737b5d8e25eb9d46277:JaTjRaGZdzetcgNGPFpDpTBbdkij0RKR", bueno esa misma xd, y al no poder desencriptarla les pregunto a ustedes que se puede hacer en este caso. Saludos  ;D desencriptar
#8
Bueno queria saber que me recomiendan para poder encontrar el admin panel de algunas paginas, digamos algo a la fecha, algun script, con extenso diccionario, he buscado en el foro y he intentado con esos pero no logro mucho. Saludos  ;D
#9
Bueno abro este tema para ver en realidad si la gente del foro podria con las siguientes dudas, que he tenido y que a lo mejor mas de una persona tambien se detuvo en algun momento preguntandose por las mismas.  :o

*Son todas las paginas vulnerables?, unas mas que otras?, existe algunas paginas que no?
*Metodos de ataque, o deface de las web, diferentes tipos, metodos, formas.
*Como saber que tipo de ataque debo hacer en la web, para asi poder encontrar una vulnerabilidad, que me lleve a completar el trabajo que estoy haciendo.
*.htaccess, dichoso archivo, pero hasta el momento se muy poco de el.

Esas entre otras mas, muchas gracias, saludos.