Amazon Hosted Public Datasets: Vislumbrando nuevos modelos de negocio

 

 

Amazon ha anunciado la publicación de repositorios públicos de datos, accesibles únicamente desde sus entornos EC2. Es decir, puedes montar estos datos en su ‘Nube’ y usarlos como quieras sin pagar nada, únicamente el tiempo de uso de las instancias EC2. Según dicen:

Nuestra meta es proveer un acceso sencillo a datos de datos públicos y comunes como el genoma humano, astronomía y al censo de los USA.

Además si tienes un conjunto de datos interesante, puedes solicitar su publicación y donar los datos a la comunidad. Como podéis ver, todo muy bonito y… ¿altruista? Bueno, todo lo altruista que debe ser una empresa: evidentemente Amazon espera recuperar el dinero invertido cobrando por el uso de EC2.

La pasada semana tuve una agradable reunión con un defensor del SaaS, y uno de los temas que han salido es el de la captura y explotación de datos de y en La Nube. Y casualmente va Amazon y saca a la luz este proyecto…

Cuando pienso en explotación de datos pienso en Business Intelligence, Datawarehouses y Datamining: lo que he visto en la empresa. Recuerdo una asignatura llamada ‘Bases de datos avanzadas’ (nosotros la llamábamos ‘Bases de datos Avanzadísimas’…). En ella se estudiaba un par de conceptos nuevos llamados ‘Datawarehouse’ y ‘Datamining’. Fascinantes conceptos en aquella época, pero nuestros profesores se empeñaban en darle más importancia a los conceptos teóricos formales que a la verdadera razón por la que explotaron los DW y los DM a mediados de los noventa: El coste de proceso y el coste de almacenamiento bajó de manera drástica, permitiendo el manejo de datos en tiempos más reducidos y por lo tanto, ajustados a la velocidad que necesitan las diferentes Unidades de Negocio para tomar decisiones. ¡Por fín era rentable explotar estos datos! Una característica fundamental de estos almacenes de datos es que trabajan con información interna de la empresa. Es decir, su ámbito es el de la corporación X o corporación Y (departamento X o departamento Y… datamarts). Resulta impensable que una corporación X ponga a disposición de sus competidores su Datawarehouse…¿o no?

Estamos a finales de la década y la situación es muy diferente: el coste de almacenamiento tiende a cero, la computación se compra por tiempo de uso, el ancho de banda aumenta y el precio se congela… El coste de proceso y almacenamiento pueden llegar a ser irrelevantes cuando manejamos grandes cantidades de datos. Y en la parte software, algoritmos como Map/Reduce surgen como alternativa a los modelos relacionales clásicos, menos eficientes para grandes volúmenes. Estamos ante el nacimiento de una Nueva Generación de Data Warehouses.

¿Pero con qué datos vamos a alimentar a esta Nueva Generación? Veo tres fuentes básicas:

  1. Las propias organizaciones. No todos los datos entraban en el data warehouse, pero ahora empieza a ser factible almacenar todos y cada uno de los datos manejados en las organizaciones. Aquí entraría el almacenamiento ‘crudo’ de información recogida de las arquitecturas M2M, por ejemplo.
  2. Los proveedores. De igual manera que se acuerdan niveles de calidad de servicio a proveedores clave, se podrán demandar datos ‘crudos’ a éstos. Ya se hace, pero normalmente ligado a las métricas de calidad.
  3. Proveedores de Bancos de Datos: Como Amazon. Cobrando de modo directo o indirecto por el acceso a estos bancos públicos de datos. Con el tiempo, este tipo de proveedores ofrecerían datos menos genéricos y más orientados a segmentos de negocio. Posiblemente, estos proveedores de bancos de datos serán ‘Brokers’ entre organizaciones afines. Ya sea mediante la forma de consorcios o fundaciones que garanticen la ‘neutralidad’ de estos datos, o bien mediante mercadeo de datos como si fuese otra mercancia.

Lo cierto es que esta nueva generación de Data Warehouses ya existe. Hace unos años, una empresa con un novedoso software de reconocimiento de textos nos comentó cómo una importante empresa americana de tarjetas de crédito no sólo estaba digitalizando todo su almacén de datos en papel, sino que compraba bases de datos en cualquier formato con la esperanza de poder cruzarlas en el futuro. Sabían que sólo era cuestión de tiempo que el coste de cruzar estos datos compensase sus esfuerzos por calcular el riesgo de sus clientes de manera más avanzada. Y en muchas ocasiones el problema no era de costes, sino de acceso a los recursos, por sorprendente que parezca.

Actualización 9:30am: Via twitter.com me llega esta empresa que parece que intentan mover este negocio usando Amazon AWS: http://datamarket.net/

 

Be Sociable, Share!
  • http://externalidades.net Diego

    añadir 2 cosas:

    a) Lo que hoy en día se almacena, va a ser una pequeñísima porción en cuanto sensores/spimes/cacharros se unan a la nube y la nutran de todo tipo de información para trazabilidad.

    b) Recuerda cuando en clases de estadística se consideraba aceptable un error residual de una regresión, dado que el coste del cálculo era superior a la información marginal aportada. Con el coste del cálculo cayendo en picado, va a ser posible tener predicciones cualitativa y cuantivamente mejores. Y para estimar mejor hacen falta más datos (ver punto a)

  • http://www.todoondemand.es javiergimenez

    Hola James,

    Me encanta el artículo y la noticia. Es un movimiento (de momento seminal) muy interesante por parte de Amazon. Nosotros (además del blog todo ondemand, estamos arrancando Litebi, una empresa de Business Intelligence SaaS) ya habíamos pensado desde hace meses en ofertar a nuestros clientes datos públicos como complemento para sus datos propios a la hora de construir este data warehouse moderno, hoy en día hay muchas empresas que necesitan información proveniente de internet para tomar decisiones e irá a más.

    Si me lo permites referenciaré tu artículo y expondré mis puntos de vista. Creo que la clave está en que herramienta de integración de datos se construye para juntar toda esta información (incluso no estructurada).

    Saludos!

  • http://nubeblog.com James Grid

    ¡Claro que puedes referenciarlo! Me tenéis que contar un día qué hacéis en Litebi, creo que lo que pensáis tiene un potencial tremendo.

  • http://josempelaez.com josempelaez

    Sr. Grid, un par de notas.

    Respecto de lo que apunta el Sr. Mariño en su adición a), recuerdo una mención que hice en Tic&Tac a la «gestión de alta resolución». Como decías, los “datos crudos del M2M” irán teniendo mayor relevancia en las decisiones empresariales. Considero que el tratamiento de estos datos estructurados es un enfoque infraexplotado respecto del análisis de datos que se viene realizando en el terreno del BI, DSS, DM, DW, OLAP… No sólo baja el coste de almacenamiento y proceso, sino también el de captura y transmisión.

    El empleo de datos de los proveedores llevará a considerar muchas cadenas de B2B2B2B2C que, además, se entrecruzan para formar redes de abastecimiento de la demanda. ¿Dónde estarán todos estos datos que hoy se infrautilizan dentro de los firewalls? ¿No se llama el blog del CTO de Amazon «All Things Distributed»? Como recordaba tic616, “we have to think outside the firewall”.

  • http://nubeblog.com James Grid

    Sr. Pelaez, gracias por sus comentarios. Creo que el modelo de Data warehouse centralizado como lo conocemos caerá en desuso, y pasaremos a un modelo absolutamente distribuido. Llegaremos a un punto donde el coste de almacenamiento de los datos sea mayor que el coste de ‘obtención’ de la información relevante, siempre cuando se garantice su disponibilidad.

  • http://softwareyservicio.wordpress.com/ enhasmen

    Hola,
    Yo añadiría a tu lista:
    * las entidades gubernamentales cuya función principal misión es ayudar al desarrollo socio-económico y cultural
    * Las universidades como generadores de información y
    * Las wikis dentro de las redes sociales temáticas que a largo plazo generan que a mi modo ver generaran el mayor y mejor conocimiento.

    veo como handicap la standarización de las fuentes de información y el multilanguaje para la explotación de todo tipo de información, pero llegaremos a ello, estoy seguro.

    Un saludo.

  • Pingback: Nudos entre comunicaciones « Blog de JoseMPelaez

  • Pingback: Navegar hacia las nubes de datos « Blog de JoseMPelaez