LOGIN
28SEP2018viernes

SERVICIO DE ANÁLISIS Y DEPURACIÓN DE CONTENIDOS DE LA BASE DE DATOS

Última actualización 27 de Septiembre de 2018/0 Comentarios
URL: http://www.bibliodoc.com/es/nov-999-noticias/4036-servicio-de-analisis-y-depuracion-de-contenidos-de-la-base-de-datos

Cómo aumentar el valor intrínseco.


¿Cómo sabemos si nuestros datos son “buenos”?

  • ¿Están completos los datos? ¿Hay campos vacíos o con valores nulos tipo “N/C”?
  • ¿Son consistentes? ¿Hay conflictos entre los valores de distintos campos, por ejemplo, entre “Género” y “Título”? ¿Entre los valores de un campo en distintos conjuntos de datos? La consistencia se puede definir a distintos niveles.
  • ¿Son únicos? ¿Hay duplicidades en el conjunto de datos? En ocasiones resulta más sencillo manejar un cierto umbral de redundancia que garantizar la unicidad de los datos.
  • ¿Son conformes a los estándares o convenciones? ¿Se garantiza la privacidad de los datos según la legislación vigente? ¿Se monitorizan los accesos?
  • ¿Son precisos? ¿Cuántos decimales son precisos para los valores numéricos? ¿Qué redondeo o truncamiento se usa?
  • ¿Son razonables? ¿Tienen sentido los valores que aparecen reflejados? ¿Representan de forma correcta la realidad?

Si hemos detectado la necesidad de mejora en el conjunto de datos tendremos que realizar una depuración. (data cleansing, data cleaning o data scrubbing).

 

Acondicionamiento y depuración de datos

 

La depuración de datos consiste en el proceso de detección y corrección de datos incorrectos o corruptos de una base de datos. El proceso se utiliza principalmente cuando contiene datos incorrectos, incompletos, inexactos o irrelevantes que son identificados, y luego modificados, sustituidos o eliminados.

Si queremos asegurarnos de que los datos se utilizan de la manera más productiva y significativa posible, de forma que podamos añadir valor, se debe dar mucha importancia a la calidad utilizando herramientas y depuración.

Se pueden lograr beneficios, algunos de los cuales pueden conducir a reducir los costes operativos y maximizar las ganancias.

 

Éstas son las ventajas que ofrece:

  1. Mejora la eficiencia

Mediante la depuración de datos, se elimina el problema de datos incorrectos o contaminados. Podemos crear listados más eficientes. En el proceso los datos han de estar limpios, actualizados y exactos, siguiendo con regularidad las rutinas de calidad.

La duplicación de datos es otro aspecto que puede ser erradicado. El impacto de la duplicación es directamente proporcional al tiempo que permanecen en la base de datos.

 

  1. Mejora el proceso.

En una organización se duplican los datos, podrían estar limpios inicialmente, pero los errores pueden surgir en cualquier momento.

Con unos datos limpios se puede realizar mucho mejor la analítica que puede ofrecerte un completo business intelligence, lo cual contribuirá al éxito a largo plazo.

 

  1. Agiliza las Tareas

La eliminación de la duplicación de datos puede ayudar a optimizar y ahorrar mucho dinero. Y acompañar en la determinación de si algunos flujos de trabajo pueden ser modificados o identificar una oportunidad para lanzar un nuevo servicio.

 

  1. Aumenta rendimiento

Tener una base de datos limpia y bien mantenida puede evitar que se utilice información desactualizada. Al trabajar con registros limpios maximizamos la eficiencia y la productividad del personal.

 

  1. Aumentan las respuestas

Si se trabaja en la mejora de la coherencia y el aumento de la veracidad de los datos a través de la depuración, se pueden mejorar drásticamente las tasas de respuesta, lo que se traduce en mayores beneficios

 

Diferenciar entre los que se pueden detectar de forma automática, y los “enigmáticos”, que requieren contextualización, intervención humana.

 

Variedad:

La información procede de distintas fuentes y su estructura puede ser mucha, poca o directamente ninguna. Por ello, es imposible poder aplicar una misma métrica de calidad a todos ellos (Bases de datos SQL (o no SQL), propias o de terceros, Datos del CRM, Hojas de cálculo, Redes sociales, Programas de facturación empresarial, Informes de transacciones…)

Ésta gran variedad de se traduce frecuentemente en grandes diferencias semánticas (campos con nombre idénticos pero significados muy diferentes, según el departamento), o inconsistencias sintácticas (por ejemplo sellos temporales inútiles, etc.). Las primeras, se pueden reducir considerablemente si disponemos de los metadatos adecuados de las distintas fuentes. Para las segundas, habrá que esperar a la fase de Data Engineering, donde se seleccionan los campos útiles para las predicciones y se descartan los que aportan ruido. Por ejemplo, los campos con valores aleatorios, o campos dependientes etc.

 

Volumen:

Hay que definir métricas de calidad, dejar de trabajar con valores absolutos, para pasar a hacerlo con aproximaciones e intervalos de confianza.

 

Velocidad:

Si los procesos de depuración de los datos no son los adecuados, para cuando se ha verificado su calidad, estos datos han perdido su valor para el negocio. No obstante, este incremento de velocidad se consigue a costa de sesgar la información.

 

Veracidad:

La veracidad de los datos tiene que ver con los posibles sesgos en la información, el ruido, y los datos anormales. Además los datos pueden ser poco consistentes o poco fiables (según su origen, proceso de captura de la información, procesado, infraestructura de seguridad etc.).

Esta desconexión entre las fuentes de la información y los usuarios finales es la causa principal de los problemas de calidad de los datos desde la perspectiva de la Veracidad

 

Valor:

El “Valor” del dato es mucho más tangible, nos permiten “medir” su calidad, y definir estrategias para mejorarla. El dato es bueno si me sirve para lo que yo quiero hacer con él.

Proyectos relacionados ejecutados

 





ACEPTARUtilizamos cookies propias y de terceros con la finalidad de optimizar la navegación y obtener estadísticas que nos permitan mejorar los servicios prestados a través de esta página. Si continúa navegando, consideramos que acepta su uso. Más información
(c) 2019. Este site está creado con Barracus Framework, un producto de elequipoe.com(c) 2019. NCMS, Eleva Tu Punto De Vista Aviso Legal Política de cookies