1. ¿Buscando un Banco para abrir tu primera cuenta de ahorros? Revisa nuestro comparativo de cuentas cero mantenimiento haciendo clic aquí.
    Ocultar anuncio

Evitar que Google rastree algunas paginas

Publicado en 'Webmasters' por YeLloW, 14 Nov 2010.





  1. YeLloW

    YeLloW Miembro de bronce

    Registro:
    13 Ene 2010
    Mensajes:
    1,029
    Likes:
    61




    Hola, no se si me pueden ayudar, mi problema es que quiero q Google o cualquier buscador no rastree ninguna pagina, excepto la del dominio principal (www.midominio.com), pero eso no es todo ya q primero seria www.midominio.com/index.html pero luego quisiera cambiar a www.midominio.com/home.htm o .html, osea solo quiero q Google rastree el archivo index o q yo ponga, q este justo en el dominio principal.

    Tampoco quiero q rastree algunos archivos q pondre para descarga, x ejemplo www.midominio.com/archivos/descargas/archivo.doc

    No quiero q nadie explore los contenidos ni ningun archivo y solo puedan acceder al dominoi principal sin q google rastree ninguna otra pagina mas

    como haria??

    PD. con "rastrear" me refiero a "indexar" o como quieran llamarlo
     


  2. Fumador

    Fumador Miembro frecuente

    Registro:
    22 Jun 2009
    Mensajes:
    162
    Likes:
    10
    lee sobre los archivos robots.txt
     
  3. agamenon

    agamenon Miembro maestro

    Registro:
    17 Set 2008
    Mensajes:
    775
    Likes:
    43
    umm creo que mientras tengas el index no hy forma que se den cuenta de lo otro salvo que ingrese bastante gente.
     
  4. circuitox

    circuitox Miembro frecuente

    Registro:
    20 Abr 2008
    Mensajes:
    230
    Likes:
    16
    Un ejemplo de robots.txt

    para que no rastree e indexe una url:

    Disallow: /cualquier-ruta-y-cualquier-extension.html

    para que no rastree e indexe una carpeta:

    Disallow: /carpeta-a-no-rastrear/

    Para bloquear el rastraeo de todo el contenido.. Ejm (root, dominio principal, sub dominio, carpeta)

    Disallow: / (con esto decimos que no indexe todo el contenido del mismo)
     
  5. JJ_Carlos

    JJ_Carlos Miembro frecuente

    Registro:
    29 Nov 2009
    Mensajes:
    249
    Likes:
    1
    He chekado algunas páginas y no tienen el famoso robot.txt
    entonces como impiden el rastreo?
    hay otra forma?
     
  6. Fumador

    Fumador Miembro frecuente

    Registro:
    22 Jun 2009
    Mensajes:
    162
    Likes:
    10
    Para google creo que se puede usar el crawler access
     
  7. MasterBlog

    MasterBlog Miembro nuevo

    Registro:
    27 Ene 2011
    Mensajes:
    49
    Likes:
    3
    Añade un archivo robots.txt en la raíz de tu site con el siguiente código

    listo
     
  8. YeLloW

    YeLloW Miembro de bronce

    Registro:
    13 Ene 2010
    Mensajes:
    1,029
    Likes:
    61
    mmm gracias... pero, mira quiero que no RASTREE ABSOLUTAMENTE NADA, ni archivos .doc, ni .pdf ni ninguna imagen .jpg, .gif etc nada ni en imagenes google, NO QUIERO QUE RASTREE NADA NINGUN BUSCADOR

    EXCEPTO:

    el index.html

    por favor ayudame Gracias
     
  9. MasterBlog

    MasterBlog Miembro nuevo

    Registro:
    27 Ene 2011
    Mensajes:
    49
    Likes:
    3
    man mira, Disallow / indica que TODO lo que viene de dominio.com/CUALQUIERcOSa no será indexado, además te recomiendo que hagas un redirect de dominio.com/index.html a dominio.com es mejor para SEO y es más limpio de manejar.

    Con ese Disallow / ningún jpg, mp3, exe, nada indexerá San Google
     
  10. YeLloW

    YeLloW Miembro de bronce

    Registro:
    13 Ene 2010
    Mensajes:
    1,029
    Likes:
    61
    Hola, por favor no me pondrias el codigo que debo poner en robots.txt ?? por favor, es que no quiero nada, pero si que rastree el index.html, o mejor dicho el dominio principal, que lo por ejemplo es www.midominio.com/index.html pero solo se muestra www.midominio.com No entiendo para que redireccionar, si es lo logico que el index.html lo lea como primario...

    Código:
    Ponme el codigo ps aca
    Gracias.
     
  11. YeLloW

    YeLloW Miembro de bronce

    Registro:
    13 Ene 2010
    Mensajes:
    1,029
    Likes:
    61
    respondanme ps ayudenme por favor
     
  12. LeoIII

    LeoIII Miembro maestro

    Registro:
    22 Dic 2010
    Mensajes:
    506
    Likes:
    76
    El archivo robots.txt evita que los robots (obvio xD) de los buscadores indexen determinadas páginas y/o carpetas de una web, pero este mismo archivo es accesible para todo el mundo (con tal de colocar "www.dominio.com/robots.txt" pueden ver la lista de páginas"), es por eso que si quieres ocultar una parte de tu sitio no sólo a los buscadores te sugiero que utilices otro modo.
     
  13. YeLloW

    YeLloW Miembro de bronce

    Registro:
    13 Ene 2010
    Mensajes:
    1,029
    Likes:
    61
    es que ya me pusieron el codigo para que no rastree NADA, ninguna carpeta, ningun archivo, ninguna imagen. El codigo es este:

    Código:
    User-agent: Mediapartners-Google
    Disallow: 
    
    User-agent: *
    Disallow: / 			 		
    
    Lo que me queda duda es que si se va indexar mi dominio principal (porque eso es lo que quiero ) osea www.midominio.com (que en realidad leera el index.html).

    Lo que quiero es que las palabras claves que puse (keywords) y la etiqueta meta sean leidas por el buscador para que al poner se indexe SOLO www.midominio.com de acuerdo a las palabras calves que pongan las personas en el buscador
     
  14. LeoIII

    LeoIII Miembro maestro

    Registro:
    22 Dic 2010
    Mensajes:
    506
    Likes:
    76
    No, con ese código los buscadores pasarán de largo cuando visiten tu sitio, así que no indexarán siquiera el archivo index.html
     
  15. YeLloW

    YeLloW Miembro de bronce

    Registro:
    13 Ene 2010
    Mensajes:
    1,029
    Likes:
    61
    entonces que codigo debo poner para lo que quiero?

    En el buscador solo quiero que se indexe www.midominio.com (que en realidad sear un index.html pero no se vera en www.midominio.com)

    Pense que al poner ese codigo robots.txt y agregando manualmente el dominio al buscador de google seria suficiente
     
  16. LeoIII

    LeoIII Miembro maestro

    Registro:
    22 Dic 2010
    Mensajes:
    506
    Likes:
    76
    Lo más sencillo sería colocar en esa lista todos los archivos y carpetas que no quieres que se indexen manualmente ya que no existe un "allow".
     
  17. YeLloW

    YeLloW Miembro de bronce

    Registro:
    13 Ene 2010
    Mensajes:
    1,029
    Likes:
    61
    eso no me serviria de nada, porque como bien dices www.dominio.com/robots.txt y ven que directorios he protegido

    debe haber alguna forma, no por algo encuentro algunos dominios que solo estan indexados en google con su dominio principal: www.dominio.com

    si pongo site:ejemplo.com en google me aparece que solo esta ese dominio y quiere decir que no ha rastreado ninguna pagina mas
     
    Última edición: 31 Ene 2011
  18. LeoIII

    LeoIII Miembro maestro

    Registro:
    22 Dic 2010
    Mensajes:
    506
    Likes:
    76
    No he visto si exista este modo, pero podría ser posible que coloques algo parecido al robots.txt pero en la cabecera de cada archivo que no quieres que se indexe. Así nadie lo encontraría.

    Y no me refiero a poner el mismo código en la cabecera, sino a que uses los meta-tags.
     
    Última edición: 31 Ene 2011
  19. Fumador

    Fumador Miembro frecuente

    Registro:
    22 Jun 2009
    Mensajes:
    162
    Likes:
    10
    Si tienes un servidor Linux puedes crear una directiva .htaccess para hacer inaccesible el archivo robots.txt

    Si tienes un servidor windows puedes prohibir la lectura del archivo accediendo al panel de control (supongo que algunos deben ser pleskpanel)
     
  20. YeLloW

    YeLloW Miembro de bronce

    Registro:
    13 Ene 2010
    Mensajes:
    1,029
    Likes:
    61
    disculpa, pero ya dije que no quiero que indexe nada, excepto el index.html creo que lo puse bien claro, jaja no se si suena duro, pero es la verdad px amigo xD

    no me interesa que vean el robots.txt porque en realidad no quiero que google indexe nada excepto mi dominio principal www.midomio.com (que en realidad leera al index.html osea www.midominio.com/index.html). En conclusion solo quiero que rastreee el index.html pero que en la busqueda arroje SOLO www.midominio.com

    creo que es algo facil que los que estan en esto deberian saber no? xD Yo no se porque soy novato, peor que eso, bovato.. :plop: