Coincido con Javier en que es una aplicación genial e incluso hoy me ha sorprendido comprobar lo rápido que se actualiza su contenido. Agregax es un agregador y como tal, obtiene la información de los feeds, la almacena, la procesa y con ella hace funcionar todas sus utilidades: el buscador, las nubes de tags, los filtros por fuente, los filtros por autor… etc.
Construir un agregador en esencia es sencillo, porque los feeds están diseñados precisamente para que lo sea… nosotros en CompareBlogs también programamos un pequeño agregador con el cual obtenemos los datos para Feedpics, como también lo deben tener en otros servicios como LastInfoo, Linkja, Blablablog y por supuesto Feedness (centrándonos en aplicaciones en español). A ninguno de ellos les costaría crearse un Agregax, porque lo «gordo» ya lo tienen hecho.
Cuando nosotros programamos nuestro agregador nos encontramos con una serie de problemas, que sería muy interesante saber como Pau ha ido resolviendo:
- Charset. Esto aun no lo tenemos del todo resuelto ya que nosotros seguimos utilizando el «iso-8859-1» en nuestras páginas y la mayor parte de los blogs se publican en «UNICODE UTF-8» (aunque no lo necesiten). Esperamos migrar todo a UTF-8 en los próximos meses, lo que nos facilitará bastante las cosas. Luego también existen otros problemas, como el de interpretar correctamente las horas de creación, actualización y publicación de posts en las disitintas franjas horarias.
- Diferentes formatos de feeds. RDF, Atom, RSS2…
- Actualización. ¿Cómo sabes cuando un blog se ha actualizado? Probablemente Pau lo haga de la forma correcta que es monitorizando alguna servicio como Weblogs, no hace mucho vendido por Dave Winer a Verisign. Nosotros, que no necesitamos una actualización tan «en tiempo real» lo único que nos tiene que preocupar es que no perdamos ningún post, lo cual es fácil que pase en blogs que se actualizan tanto como Autoblog, MotorPasion, Engadget… que pueden llegar a renovar sus feeds completamente en un sólo día.
- Almacenamiento. No sé si Pau estará almacenando todo el post o sólo los 255 primeros caracteres. Nosotros almacenamos todos los posts en formato XML, pero en la base de datos sólo almacenamos las entradillas y aun así es mucho almacenamiento. Nosotros monitorizamos uno 600 blogs y Agregax cerca de 2500, lo cual yo calculo que supondrá cerca de 250 Mb de almacenamiento en base de datos al mes (sólo archivando las entradillas). Y si Technorati realiza un seguimiento de cerca de 36,9 millones de blogs… pues hacer números y entenderéis porqué a veces va tan lento.
- Estabilidad y robustez. Esto es importante, ya que como hemos dicho los feeds no van a estar ahí siempre sino que se van renovando y se persigue que en un servicio de este tipo no se pierda información. El robot de Agregax tiene que funcionar constantemente, todos los días del año y de manera automática.
En definitiva, crear un agregador es sencillo y a la vez muy complicado y por lo que veo Pau lo ha hecho realmente bien. No obstante un agregador es sólo una herramienta, ahora lo importante es…
¿Qué vas a hacer con ella?
Ser un Technorati en español no es suficiente, porque ya existe Technorati. Luego en ese aspecto coincido con Javier Penalva y yo también me quedo con Technorati, simplemente por costumbre y porque… quién sabe, lo mismo me cita un blog no español (que eso hincha el ego que no veas).
Así que estoy seguro de que Pau -que aunque no conozco debe ser un tío muy brillante- debe estar dándole a la cabecita pensando en lo que va a hacer ahora con AgregaX… en fin, puede que incluso ya lo sepa, e incluso puede que haya pensado en un modelo de negocio (algo que también es bueno plantearse… si uno quiere ganar dinero o no con esto).
Yo ya me he suscrito al blog de Pau y estoy deseando que salga el blog de Agregax… lo cual quiere decir que me ha gustado mucho lo que llevo visto, asi que mis más sinceras felicitaciones.