Mabrian

Con el apoyo financiero del CDTI y de la Unión Europea a través del Programa Operativo de Crecimiento Inteligente 2014-2020.

Unión Europea CDTI

HERRAMIENTA CLOUD PARA EL MARKETING 3.O

El objetivo de SocialVane es llegar a ser líderes mundiales en herramientas profesionales de Marketing 3.0 para pymes. Para ello, la compañía ofrece un potente conjunto de utilidades destinadas a la interpretación de la información que circula por la red sobre una marca, permitiendo a la misma reorientar su estrategia digital con la máxima eficacia.

Objetivos técnicos

Con una base tecnológica pionera y con resultados ya demostrables, las innovaciones a desarrollar con este proyecto son:

1. Desarrollar máquinas de aprendizaje de entrenamiento muy rápido. Es el más importante y en la que se basarán la mayoría de las nuevas funcionalidades incluidas en el presente proyecto. Se pretende disponer de máquinas de aprendizaje capaces de funcionar únicamente con 50 casos de entrenamiento, mientras que lo habitual es necesitar miles de muestras para entrenar una máquina de aprendizaje. El conseguir esa capacidad nos permitirá exponer al usuario la funcionalidad de “entrenar” al sistema según su criterio, algo totalmente novedoso y no existente en ninguno de los competidores.

Para asegurar la viabilidad de esta iniciativa, se han realizado pruebas prototipadas que, en el caso de muestras homogéneas, otorgan ya muy buenas espectativas. Para llegar a conseguir estos resultados, será necesario en primer lugar desarrollar extractores de características que reduzcan mucho las muestras. En el caso de textos, eso implica utilizar raíces de palabras, descartar artículos y palabras demasiado frecuentes, y centrarse en palabras con menos frecuencia de aparición. Para determinar la frecuencia de aparición de cada palabra en cada idioma, se van a utilizar las transcripciones públicas de las sesiones del Parlamento Europeo, que son una muestra representativa de lenguaje formal. El segundo paso es la utilización de TF- IDF (Term Frequency – Inverse Document Frequency) para calcular los pesos de las palabras, otorgándoles mayor peso cuanta más frecuencia de aparición en la mención, pero también cuanto menor frecuencia de aparición en una muestra del lenguaje completo. Finalmente, y para evitar la clasificación errónea si no disponemos de casos de muestra similares a la mención a clasificar, lo que se pretende es, mediante una implementación del algoritmo de clasificación K-NN (K Neareast Neighbors), clasificar únicamente aquellas muestras cuyo vector de representación esté a una distancia máxima de alguna muestra de entrenamiento. De esta forma, el programa será capaz no sólo de clasificar, sino también de identificar aquellos casos en los que no dispone de muestras suficientes para hacerlo, cosa que cuando suceda se convertirá en una petición de entrenamiento al usuario de la plataforma. Así, el sistema podrá estar en continuo entrenamiento, pero también en continuo funcionamiento, ya que desde la muestra de entreno número 1 recibida por parte del propio usuario será capaz de empezar a trabajar.

2. Desarrollar herramientas para añadir una serie de funcionalidades a la plataforma y así, convertirla en la herramienta más avanzada en cuestiones de Social Business Intelligence a nivel mundial. Detallamos a continuación cuáles son dichas aportaciones:

- Identificación de targets de cliente. Se trata de obtener el máximo de información de la gente que habla de un tema o marca, como puede ser su género, profesión, rango de edad, idioma o ubicación. La mayoría de estos atributos no están disponibles de forma directa, por lo que será necesario el uso de máquinas de aprendizaje entrenadas para clasificar cada uno de los casos con suficiente grado de fiabilidad.

- Desarrollar una alternativa a las actuales encuestas de opinión. Mediante el uso de técnicas combinadas de procesamiento de lenguaje natural y de máquinas de aprendizaje, se podría substituir en gran medida a las clásicas encuestas de opinión, costosas e inperfectas, ofreciendo una herramienta cómoda y con resultados mucho más sinceros a partir de las opiniones que la gente ya ha volcado en las redes sociales.

- Implementar la funcionalidad de análisis semántico segmentado, que permitiría conocer qué conceptos se usan más en positivo o en negativo alrededor de cada marca o categoría de negocio, y cruzar estos datos con atributos de los emisores (género, ubicación, rango de edad, profesión e idioma), con el objetivo de obtener datos de gran interés para los departamentos de marketing.

Para llegar a desarrollar esta funcionalidad, el primer paso será disponer de todas las menciones procesadas semánticamente, mediante las técnicas expuestas en párrafos anteriores, y de un análisis de sentimiento también procesado. Una vez hecho eso, será posible examinar cuáles son las raíces de palabras más utilizadas en las menciones con sentimiento positivo o negativo, en cada una de las monitorizaciones de marcas o industrias de las que se disponga. Este proceso puede repetirse en N interaciones, de forma que se pueda obtener un detalle de las palabras más usadas en cada sentimiento, pero también con qué otras palabras aparecen relacionadas las primeras.

- Elaboración de Mapas de influencia. Aplicando técnicas de clustering a las interacciones que se producen ente los emisores que hablan de un tema en redes sociales, se puede obtener un mapa de influencia que identifique los canales de difusión y los emisores más influyentes.

- Extracción de atributos de las marcas o servicios. Para poder llegar a extraer la percepción en redes sociales asociada a atributos como el precio, la calidad o el diseño, o a atributos específicos en caso de sectores concretos. Ello también implica la existencia de bases de datos de palabras relacionadas con cada atributo, así como el uso de máquinas de aprendizaje para que el propio usuario pueda corregir los casos no clasificados, permitiendo que el sistema aprenda de la misma forma que en la detección de sentimiento.

- Elaboración de resúmenes automatizados de conversación. Se trata de combinar técnicas de clustering con técnicas de procesamiento de lenguaje natural. Hay que desarrollar un algoritmo de agrupamiento (en inglés, clustering), un procedimiento de agrupación de una serie de vectores de acuerdo con un criterio. Esos criterios son por lo general distancia o similitud. La cercanía se define en términos de una determinada función de distancia, aunque existen otras más robustas o que permiten extenderla a variables discretas. La medida más utilizada para medir la similitud entre los casos es las matriz de correlación entre los nxn casos. Sin embargo, también existen muchos algoritmos que se basan en la máximización de una propiedad estadística llamada verosimilitud.

La funcionalidad de esta tecnología es obtener resúmenes automatizados sobre grandes volúmenes de información, algo muy necesario cuando se trabaja con monitorizaciones de decenas o centenas de miles de menciones, y muy útil para averiguar qué aspectos se valoran mejor o peor de cada marca.

- Incorporación de nuevos idiomas. Se prevé incorporar como mínimo soporte para alemán e intentar la incorporación del alfabeto y lenguajes árabes.

© 2017 Mabrian Technologies SL.