1. ¿Buscando un Banco para abrir tu primera cuenta de ahorros? Revisa nuestro comparativo de cuentas cero mantenimiento haciendo clic aquí.
    Ocultar anuncio

Visitas de Robots spam

Publicado en 'Webmasters' por daniel, 7 Abr 2010.





  1. daniel

    daniel Miembro frecuente

    Registro:
    23 Set 2006
    Mensajes:
    177
    Likes:
    2




    Hola, el spam es uno de los problemas con el que todo webmaster tiene que lidiar; sino son los comentarios spam, son las visitas de bots spam, que como tal pareciera que no hicieran daño, sin embargo el consumo de memoria y tráfico que producen sin lo son.

    Estuve revisando mis estadísticas y ayer he tenido un significante aumento, un promedio de 800 visitas nuevas y 1500 visualizaciones nuevas de paginas, pero me doy con la sorpresa que la mayoría de estas 800 visitas adicionales de las que tengo normalmente a diario son de IP's de bots spammer, algunos buscan direcciones de correo y otro dejan comentarios spamm.

    Revisando mi panel del wordpress veo 145 comentarios marcados como spam, de los cuales 140 realmente si lo eran, aún cuando uso el akismet se han colado.

    No me preocupa mucho los comentarios spam ya que no se publican automaticamente sino quedan en cola y estos los puedo borrar de un solo comando; lo que realmente me preocupa son las propias visitas, he visto en mi cpanel del bluehost que ayer he tenido un aumento considerable del consumo de memoria, coincidentemente ayer he tenido muchas visitas de bots spamms. Entonces es facil deducir que los bots spam son los responsables.

    He analizado algunas de las ips pensando en que sería uno que otro bot que haya visitado mi web un par de veces, pero en realidad de los 140 comentarios, 125 han tenido ips diferentes :S ya los agregue al denegador de ip's.

    Pero no sé si conozcan algun script, o herramienta que permita el bloqueo de estas ip's marcadas como spammer de alguna lista pública como spamhaus.

    Antiguamente tenía un boton que colocaba en mi web, el cual era un script que analizaba rapidamente el ip del visitante, si es que era una ip de algun spammer lo "absorvia" osea dejaba de mostrarle mi web y lo mandaba a otra web. Realmente disminuyó los comentarios y visitas de bots spam que tenía. Pero ya no recuerdo cual era este servicio gratuito que proporcionaba este script.

    Si alguien tiene alguna recomendación, comentario o ayuda, ya ps este es el momento de hablar o callar para siempre :wow:
     


  2. daniel

    daniel Miembro frecuente

    Registro:
    23 Set 2006
    Mensajes:
    177
    Likes:
    2
    bueno creo que he llegado a la conclusión de que tengo que pasarme a un plan reseller o en su defecto un servidor dedicado :( para dejar de procuparme del consumo de cpu
     
  3. jimmyetf

    jimmyetf Miembro frecuente

    Registro:
    17 Oct 2008
    Mensajes:
    50
    Likes:
    0
    Si quieres bloquear IPs los puedes hacer con el Htaccess, pero ten en cuenta que las IPs son dinámicas y que el htaccess consume muchos recursos.

    Tambien podrias denegar el acceso a todos los bot y dejar solo el ingreso al bot de google, el consumo de recurso es mínimo. revisa información de robots.txt
     
    Última edición: 9 Abr 2010
  4. daniel

    daniel Miembro frecuente

    Registro:
    23 Set 2006
    Mensajes:
    177
    Likes:
    2
    en verdad consume muchos recursos el Htaccess? a lo mejor estoy haciendo mas daño agregando ip's a denegar que dejandolos pasar.

    Buen dato me has dado.

    Gracias.
     
  5. jimmyetf

    jimmyetf Miembro frecuente

    Registro:
    17 Oct 2008
    Mensajes:
    50
    Likes:
    0
    te recomiendo esto para tu robot.txt


    -----------------------robot------------
    User-agent: *
    Disallow: /
    User-agent: Googlebot
    Allow: /
    -----------------------------------------


    De esa manera tambien bloqueas a los robots que mendiante un programa como el httrack te descarguen la estructura de la web, espero te sirva.

    Me cuentas como te fue
     
  6. Goku

    Goku Miembro de bronce

    Registro:
    23 Set 2006
    Mensajes:
    1,646
    Likes:
    86
    Hola daniel,

    Recién veo tu tema. A ver, para empezar, eso de que "el .htaccess consumo muchos recursos" no tiene sentido.

    Para evitar que robots no amigables rastreen tu sitio Web, crea un archivo llamado robots.txt en la raíz de tu cuenta (normalmente /public_html/) con el siguiente contenido:

    Código:
    User-agent: Googlebot*
    Allow: /
    
    User-agent: Mediapartners-Google*
    Allow: /
    
    User-agent: *
    Disallow: /
    
    Con eso, sólo Google podrá rastrear tu sitio Web e indexar sus contenidos. Cualquier otro robot será bloqueado. Una buena idea sería añadir reglas para permitir que otros robots como el de Yahoo y el de MSN también puedan indexar tu sitio.

    Observación: no todos los robots toman en en cuenta el archivo robots.txt, sobretodo los malintencionados; pero de todos esto te será de mucha ayuda.

    Para aprender un poco más sobre el archivo robots.txt, revisa esto.

    Si deseas restringir el acceso a tu sitio en base a IPs, puedes hacerlo mediante el archivo .htaccess. Para aprender a hacerlo, chequea aquí.



    ##########
    Un plan reseller es lo mismo que un plan de hosting compartido, sólo que es mi multicuenta. Si estás experimentando problemas por un excesivo consumo de ciclos de CPU o demasiada RAM, el siguiente paso es migrar a un VPS en donde sí tienes recursos asignados y garantizados. ¿Servidor dedicado? Déjalo para más adelante :-)
     
    Última edición: 9 Abr 2010
  7. jimmyetf

    jimmyetf Miembro frecuente

    Registro:
    17 Oct 2008
    Mensajes:
    50
    Likes:
    0
    Yo trabajo con servidores físicos, la cuota generada por un httaccess en donde le establezcas rutinas de bloqueos de IP o de bots genera carga innecesaria al servidor, no digo que no se pueda hacer, pero es un consumo de recurso es innecesario,

    El robots.txt es lo mas óptimo para el bloqueo de los bots no deseados .

    El htaccess es óptimo para realizar o forzar otros tipo de procesos en el servidor, además si creas un httaccess extenso la carga en el servidor es mayor.
     
    Última edición: 9 Abr 2010
  8. Connan009

    Connan009 Miembro frecuente

    Registro:
    12 May 2009
    Mensajes:
    55
    Likes:
    0
    Gracias Jonathan, esto de los robots no lo entendia bien, pero ya lo agregue..cada dia toy que aprendo algo nuevo...
     
  9. daniel

    daniel Miembro frecuente

    Registro:
    23 Set 2006
    Mensajes:
    177
    Likes:
    2
    hola bueno sólo para actualizarles, quité todas las prohibiciones de ip's de mi .htaccess y complete algunas excepciones para robot, lo deje sólo permitido para google, yahoo y live que son los que más me tienen indexado.

    Al pasar de los días ya he visto una gran reducción de las visitas, supongo ahora ya son más "reales" y ya no me rastrea algún bot para dejar comentarios.

    Los comentarios spam se han reducido a 1 o 3 diarios, así que eso es muy buena señal.