Kaggle: una plataforma online para realizar competiciones de Data Mining

El otro día en el interesante evento sobre Smart Cities de Rabanales21, gracias a Mercedes Torres y Pedro Gutiérrez conocí Kaggle…y no quería dejar de dedicarle un minipost (por eso de tenerlo localizado si tengo que usarlo alguna vez :D).

Para describir Kaggle hay que introducir (para los novatos como yo) el proceso tradicional de Data Mining.

El Data Mining comprende un conjunto de técnicas y algoritmos para extraer conocimiento a partir de datos (ahora mismo de grandes volúmenes de datos).

Tradicionalmente el Data Mining se emplea en muchas áreas para mejorar los procesos de las empresas, las compañías suelen tener equipos de especialistas Data Mining que ayudan a resolver el problema mediante el análisis de datos y la generación de unos resultados.

(Por suerte) esta visión del Data Mining está evolucionando y por eso Kaggle es una plataforma tan conocida en este ámbito.

En esencia Kaggle es una plataforma online para realizar competiciones de Data Mining, proporciona un repositorio para que las compañías publiquen sus datos y desde ahí comienza un concurso abierto para que los expertos en Data Mining de todo el mundo descarguen esos datos y propongan soluciones a los problemas de la compañía en cuestión. La mejor solución se hace con un premio que puede llegar a varios millones de dólares.

Gracias a estas competiciones, se han resuelto problemas relacionados con el descubrimiento de nuevos entes en el universo, la predicción de la probabilidad de accidente de los asegurados de una compañía de seguros, etc.

Además Kaggle constituye un importante punto de encuentro entre los expertos en diferentes áreas, y podéis encontrar ejemplos y scripts como estos:

En el blog podéis encontrar interesantes tutoriales: http://blog.kaggle.com

Kaggle: una plataforma online para realizar competiciones de Data Mining

PUBLICADA RELEASE 2.24.0 DE SOFIA2

Ya está disponible la release 2.24.0 deSofia2, esta release también se ha disponibilizado en la Plataforma de Experimentación Sofia2 CloudLab.

Ver releases

Esta versión añade a la Plataforma las siguientes funcionalidades:

· Nuevos Motores de Reglas y Scripting sobre lenguajes R y Python

Desde esta Release las Reglas y los Scripts pueden definirse además de en Groovy en R y Python. Esto permite aprovechar el conocimiento y librerías sobre estos dos lenguajes para crear complejas lógicas.

Los Scripts pueden invocarse ante una inserción, como resultado de una Regla CEP o bien planificarse.

Además se incluyen APIs en R y Python para insertar/extraer información de la base de datos de tiempo Real con loso comandos insertIntoBDTR y getFromBDTR.

En R podemos:

Y en Python:

· Nuevo Tipo de Gadget Shiny

Shiny es un framework sobre R para construir aplicaciones Web. Permite de forma muy sencilla vía scripts R crear visualizaciones HTML5 con librerías Javascript muy potentes como D3 (ver ejemplos).

En esta Release Sofia2 soporta este nuevo Tipo de Gadget, lo que permite crear fácilmente visualizaciones como esta:

La forma de crear los gadgets es muy sencilla, permite cargar hojas de estilo y otros ficheros:

Además nos permite ver en tiempo real el aspecto de la visualización:

· Integración de Sofia2 con Brandwatch Analytics

A las capacidades de Sofia2 para extraer información de diversas redes sociales se ha añadido la integración conBrandwatch Analytics para casos en los que sean necesarios capacidades específicas.

Esto permite aprovechar toda la información almacenada y procesada desde Brandwatch en Sofia2 y relacionarla con el resto de la información manejada en la Plataforma. Estas capacidades se utilizan por nuestra propuesta de valor Social Media Command Center (SMCC) como solución diferencial de analítica en redes sociales.

En este vídeo se explican en detalle los beneficios de esta solución: https://www.youtube.com/watch?v=4owqcW-pAgw

La integración soporta añadir diversas configuraciones Brandwatch, configurar búsquedas , planificar la ejecución de estas búsquedas, definir plantillas de búsquedas y finalmente almacenar los resultados de estas búsquedas como ontologías Sofia2.

Una vez almacenado como ontología Sofia2 podremos aplicar reglas sobre estas, representarlas en dashboards,…

· Integración Sofia2 con Solución Horus de Indra

En esta versión se ha desarrollado una integración con la solución de Inda para la gestión inteligente de tráfico y túneles Horus, que está implantada en sistemas tan importantes como los centros de control de tráfico de túneles de Londres.

Se ha desarrollado un conector para consumir información de Horus, esto permite por ejemplo representarla en el Visor Holístico de Sofia2 (eVidens) junto al resto de activos, tomar decisiones en tiempo real sobre esta información con los motores de reglas de Sofia2 o hacer procesos analíticos y predictivos sobe sta información.

Podemos ver como la información de Horus:

Se representa en el Visor Holístico eVidens de forma automática:

Esta integración permite ampliar las capacidades de ambas soluciones, permitiendo nuevas interacciones, por ejemplo ofrecer fácilmente información de los paneles en perfiles de Redes Sociales, en la imagen podemos ver una regla que postea en la cuenta de Twitter de un miembro del equipo el texto de un panel informativo en tiempo real:

· Demostrador Pay As You Drive(PAYD)

Gracias al equipo de Vodafone y Oysta tenemos operativa una primera versión de este demostrador que incluye un enfoque social y de gamificación con el objetivo de reducir el número de siniestros y el precio del seguro.

Un dispositivo OBD-2 recoge información en tiempo real del coche (coordenadas GPS, velocidad, consumo combustible,…), lo envía hacia la plataforma donde se realizan análisis , se generan alertas,… además se incluyen 2 portales: uno para el usuario y otro para el administrador, en el que cada usuario puede ver información de interés.

Si estás interesado en ver la demo puedes ponerte en contacto con nosotros a través del contacto de la web.

· Nueva Versión del Editor de Scripts

Con la nueva release se ha actualizado el editor del motor de scripting.

Además del cambio de tema del editor, se remarcan las palabras clave de cada lenguaje, lo cual resulta muy práctico ahora que se pueden realizar scripts en Groovy, Python y R. Además, contiene nuevas funciones de búsqueda de texto, selección por columnas, expansión de pantalla… que facilitan mucho la edición de scripts.

· Nuevo Sink Sofia2 en Sofia2-DataFlow

Se ha añadido al reciente módulo Sofia2-DataFlow funcionalidad adicional para simplificar el paso a Ontologías Sofia2.

Un Sink que permite persistir los objetos JSON del stream en ontologías Sofia2 utilizando el API REST del SIB (permite definir y evaluar reglas y alarmas sobre el tráfico recibido por el stream, y también aplicar toda la capa de seguridad y validaciones de Sofia2)

Y 2 transformers para trocear un string en base a una expresión regular y para ayudar en el manejo de JSONs.

· Resolución de incidencias y pequeñas mejoras de usabilidad de la Plataforma

PUBLICADA RELEASE 2.24.0 DE SOFIA2

SOFIA2 RELEASE 2.24.0 PUBLISHED

This new version adds the following features to the platform:

Sofia2 new release 2.24 in now available. This release has also been deployed in the experimentation platform Sofia2 CloudLab.

View releases,

This new version adds the following features to the platform:

· New Rules and Scripting engime on R and Python languages

From this Release Rules and scripts can be defined in Groovy, R and Python. This allows to leverage the knowledge and libraries on these two languages for creating complex logics. Scripts can be invoked after an insert, as a result of CEP Rule or be planned.

In addition APIs are included in R and Python to insert/extract information from the database in real time with the command insertIntoBDTR and getFromBDTR.

In R we can:

Y en Python:

· New Gadget Type Shiny

Shiny is a framework on R to build Web applications. It allows very easily to create HTML5 visualizations via R scripts with Javascript powerful libraries as D3 (see examples).

In this Release, Sofia2 supports this new type of Gadget, allowing you to easily create visualizations like this. How to create gadgets is very simple, allows to load stylesheets and other files:

It also allows us to see in real time the appearance of the gadget:

· Sofia2 Integration with Brandwatch Analytics

The integration of Brandwatch Analytics has been added to Sofia2 capabilities of extracting information from various social networks for cases where specific skills are needed.

This allows to use all the stored and processed data from Brandwatch in Sofia2 and relate it to the rest of the information handled in the Platform. These capabilities are used as a value proposal of Social Media Command Center (SMCC) as a differential analytical solution in social networks.

This video explains in detail the benefits of this solution: https://www.youtube.com/watch?v=4owqcW-pAgw

The integration supports different configurations of Brandwatch, configure queries, planning the execution of these queries, define search templates and ultimately store the results of these searches as Sofia2 ontologies.

Once stored as an ontology Sofia2 we can apply rules on them, represent them in dashboards,…

· Sofia 2 Integration with Horus Solution of Indra

This version has developed an integration with Indra´s solution for intelligent traffic and tunnel management Horus, which is implanted in key systems such as traffic control centers for tunnels in London.

A connector has been developed to consume information from Horus, this allows for example to represent it in the Sofia2 Holistic Viewer (eVidens) along with the other assets, make decisions in real time on this information with Sofia2 rules engines or doing analytical and predictive processes on this information.

We can see how the information of Horus:

Is represented automatically in the Holistic Viewer:

This integration allows to expand the capabilities of both solutions, enabling new interactions, for example easily provide information panels on social network profiles, in the picture we can see a rule that posts on the twitter account of a team member the text of the information panel in real time:

· Pay As You Drive Demonstrator (PAYD)

Thanks to the team of Vodafone and Oysta we have operating an early version of this demonstrator that includes a social and gamification approach aiming to reduce the number of claims and the cost of the insurance.

A OBD-2 device collects information in real-time of the car (GPS coordinates, speed, fuel consumption, …), sends it to the platform where it is analyzed, alerts are generated, … plus two portals are included: one for the user and one for the administrator, in which each user can view information of interest.

If you are interested in viewing the demo you can contact us via the contact in the web.

· New Version of Scripts Editor

The editor of the scripting engine is upgraded with the new release.

In addition to the change of subject of the editor, key words from each language, stresses which is very convenient now that scripts can be Groovy, Python and R. In addition, it contains new text, selection by columns search functions, expansion of screen… much facilitate the editing of scripts.

· New Sink Sofia2 in Sofia2-DataFlow

A new module Sofia2-DataFlow has been added for additional functionality to simplify the transition to Sofia2 Ontologies.

A Sink that allows persisting JSON objects of the stream to Sofia2 ontologies using the REST API of the SIB (allows to define and evaluate rules and alerts on traffic received by the stream, and also apply all the security and validations layer of Sofia2)

And two transformers to split a string based on a regular expression and to help handling JSONs.

· Resolution of incidents and small usability improvements of the Platform

SOFIA2 RELEASE 2.24.0 PUBLISHED

Gráfico de Tecnologías Emergentes de Gartner 2015 / Gartner Hype Cycle for Emerging Technologies 2015

Donde las fases:

· Innovation Trigger: cualquier avance, demostración, lanzamiento de producto o evento genera interés por parte de la Industria y la prensa.

· Peak of Inflated Expectations: durante esta fase de sobreestusiasmo y proyecciones no realistas algunos líderes consigue éxitos pero hay más fracasos al encontrar los límites de la tecnología. Las empresas que hacen dinero son los organizadores de conferencias y magazines.

· Through of Disillusionment: desilusión porque la tecnología no está a la altura de sus expectativas y rápidamente se pasa de moda. El interés de los medios disminuye.

· Slope of Enlightenment: experimentos enfocados y un trabajo sólido lleva a un verdadero entendimiento de la aplicabilidad de la tecnología, riesgos, y beneficios por parte de un amplio rango de organizaciones. Aparecen herramientas y tecnologías estándares que facilitan el proceso de desarrollo.

· Plateau of Productivity: los beneficios reales de la tecnología son demostrados y aceptados. Las herramientas y metodologías se estabilizan entrando en segundas y terceras generaciones. Crece el número de organizaciones que lo usan al reducirse el nivel de riesgo, la adopción crece rápidamente. Aproximadamente el 20% de la audiencia target adopta o está adoptando la tecnología en esta fase.

Gráfico de Tecnologías Emergentes de Gartner 2015 / Gartner Hype Cycle for Emerging Technologies 2015