lunes, 23 marzo 2009

4
objeciones

Listado de IPs de bots, crawlers, spiders y demás...

por Fernando Plaza en , ,

Lista actualizada de direcciones IP de los robots que indexan nuestras webs habitualmente.

En mi post Programando un contador de impresiones que excluya a los bots me recomendaba Alberto en los comentarios que compartiera mi listado de IPs de bots, crawlers, spiders y demás...

Para quien le pueda interesar un volcado de este listado de IP se actualizará regularmente en la siguiente dirección:

http://www.fernandoplaza.com/apps/bots/iplist.txt

Los casi 800 bots que tenemos ya fichados están ordenados por el UserAgent para que el listado sea más sencillo de revisar. La estructura del txt no os costará averiguarla por si queréis importar su contenido con cierta frecuencia (para que el fichero no pese mucho el UserAgent está limitado a 100 caracteres).

Espero que os resulte útil.

Comentarios y objeciones

  1. Melissa dijo,

    El 26 marzo 2009 a las 21:09 #

    1

    Hola tengo una pregunta, en un artículo leí que las paginas web que estaban hechas con tecnología Ajax tenían varias dificultades al indexar la información con los spiders, esto es asi?? porque mi profesor me dijo que era imposible pues hasta Google utilizaba Ajax en sus aplicaciones.

  2. El 26 marzo 2009 a las 21:26 #

    2

    yo creo que un spider va a tener dificultades en visualizar por completo una web que haga uso intenso de AJAX

    Cierto es que Google utiliza el mucho AJAX pero en aplicaciones de -uso privado- como Gmail y Analytics que en ningún momento pretenden ser indexadas por los buscadores.

    Lo mejor es instalarse un Lynx:

    http://en.wikipedia.org/wiki/Lynx_(web_browser)

    Lo que no vea él, no lo conseguirán ver la mayoría de los crawlers.

  3. Samuel dijo,

    El 31 marzo 2009 a las 10:50 #

    3

    Fernando, ¿Qué significado tiene la segunda columna de la lista?.

  4. El 31 marzo 2009 a las 10:58 #

    4

    es un identificador único de cada IP

    la primera columna no vale como identificador porque va cambiando según se incorporan nuevas direcciones




Programando un contador de impresiones que excluya a los bots
Programando un contador de impresiones que excluya a los bots
El tráfico generado por robots, crawlers, spiders y demás que navegan por la red es casi tan grande como el de los humanos. Si queremos programar un contador fiable debemos excluir todas esas visitas.

Historia de un Viejo Informático
Historia de un Viejo Informático
...os garantizo que en la actualidad es imposible poner en marcha ninguna nueva aplicación, por sencilla que parezca, en menos de seis meses… y los que tengáis experiencia, decidme si tengo razón o no

La evolución de Windows y los libros que he tirado en el 2009
La evolución de Windows y los libros que he tirado en el 2009
A diferencia de otros libros, los manuales de informática caducan como los yogures... llega un momento en que ya no te sirven para nada, salvo para montar un museo.

La opacidad en las aplicaciones: Ey! ¿hay alguien ahí?
La opacidad en las aplicaciones: Ey! ¿hay alguien ahí?
Nuestro CMS lo utilizan ya cerca de 40 personas, algunos de los cuales ni siquiera están en España y sólo tenemos contacto con ellos por mail... ¡con algunos ni siquiera he hablado nunca!

En portada