Cap. 6 Fundamentos de inteligencia de negocios:
bases de datos y administración de la información
Organización de los datos en un entorno de
archivos tradicional
Un sistema
computacional organiza los datos en una jerarquía, la cual empieza con el bit. Estos
se pueden agrupar para formar un byte que representa un carácter, número o
símbolo. Los bytes se pueden agrupar para formar un campo, y los campos
relacionados para formar un registro. Los registros relacionados se pueden
reunir para crear un archivo, y los archivos relacionados se pueden organizar
en base de datos.
El uso de la
metodología tradicional para el procesamiento de archivos impulsa a cada área
funcional en una corporación a desarrollar aplicaciones especializadas. Cada
aplicación requiere un archivo de datos únicos que probablemente sea un
subconjunto del archivo maestro. Estos subproductos producen redundancia e
inconsistencia en los datos, inflexibilidad en el procesamiento y desperdicio
de los recursos de almacenamiento.
La redundancia de
los datos es la presencia de datos duplicados en varios archivos, de modo que
se almacenan los mismos datos en más de un lugar o ubicación. La inconsistencia
de los datos se da en donde el mismo atributo puede tener distintos valores.
La dependencia
programa-datos se refiere al acoplamiento de los datos almacenados en archivos
y los programas específicos requeridos para actualizar y dar mantenimiento a
esos archivos, de tal forma que los cambios en los programas requieren cambios
en los datos.
La metodología de las bases de datos para la
administración de datos
Un sistema de
administración de base de datos (DBMS) es software que permite a una
organización centralizar los datos, administrarlos en forma eficiente y proveer
acceso a los datos almacenados mediante programas de aplicación.
Un DBMS reduce la
redundancia e inconsistencia de los datos al minimizar los archivos aislados en
los que se repiten los mismos datos. También elimina la inconsistencia de los
datos debido a que puede ayudar a la organización a asegurar que cada
ocurrencia de datos redundantes tenga los mismos valores.
El modelo de
bases de datos más popular de DBMS es el DBMS relacional, en esta base se
organizan los datos en forma de tablas bidimensionales. Las tablas de bases de
datos relacionales se pueden combinar con facilidad para ofrecer los datos
requeridos por los usuarios, siempre y cuando dos tablas cualesquiera compartan
un elemento de datos común.
Un DBMS orientado
a objetos almacena los datos y los procedimientos que actúan sobre esos datos
como objetos que se pueden recuperar y compartir de manera automática.
Ahora hay
sistemas DBMS objeto-relacional híbridos, que ofrecen las capacidades de los
sistemas DBMS tanto orientados a objetos como relacionales.
Un DBMS incluye
capacidades y herramientas para organizar, administrar y acceder a los datos en
la base de datos. Las más importantes son: su lenguaje de definición de datos,
el diccionario de datos y el lenguaje de manipulación de datos.
La mayoría de los
DBMS tienen un lenguaje especializado conocido como lenguaje de manipulación de
datos el cual se utiliza para agregar, modificar, eliminar y recuperar los
datos en la base.
Para crear una
base de datos hay que comprender las relaciones entre la información, el tipo
de datos que se mantendrán en la base, como se utilizaran y la forma en que
tendrá que cambiar la organización para administrarlos desde una perspectiva a
nivel de toda compañía.
Los sistemas de
bases de datos relacionales tratan de cumplir reglas de integridad referencial
para asegurar que las relaciones entre las tablas acopladas permanezcan
consistentes.
Uso de bases de datos para mejorar el desempeño de
negocios y la toma de decisiones
Un almacén de
datos es una base de datos que almacena la información actual e histórica de
interés potencial para los encargados de tomar decisiones en la compañía.
El almacén de
datos extrae los datos actuales e históricos de varios sistemas operacionales
dentro de la organización. Estos datos se combinan con los provenientes de
fuentes externas y se reorganizan en una base de datos central, diseñada para
realizar informes y análisis gerenciales. El directorio de información da a
conocer a los usuarios los datos disponibles en el almacén.
Un mercado de
datos es un subconjunto de un almacén de datos, en el cual se coloca una
porción con alto grado de enfoque en los datos de la organización en una base
de datos separada para una población especifica de usuarios.
Una vez que los
datos de líneas se capturan y organizan en almacenes y mercados de datos, están
disponibles para su posterior análisis mediante el uso de herramientas para la
inteligencia de negocios.
Procesamiento
Analítico en línea (OLAP) soporta el análisis de datos multidimensional, el
cual permite a los usuarios ver los mismos datos de distintas formar mediante
el uso de varias dimensiones.
La minería de
datos está más orientada al descubrimiento, ya que provee perspectivas hacia
los datos corporativos que no se pueden obtener mediante OLAP. Se pueden
obtener los siguientes tipos de información:
·
Las
asociaciones son ocurrencias vinculadas a un solo evento.
·
En
las secuencias, los eventos se vinculan en el transcurso del tiempo.
·
La
clasificación reconoce los patrones que describen el grupo al que pertenece un
elemento.
·
El
agrupamiento funciona de una manera similar a la clasificación cuando no se han
definido grupos.
·
Aunque
estas aplicaciones implican predicciones, el pronóstico utiliza las
predicciones de una manera distinta.
El análisis predictivo utiliza las técnicas de minería de datos, los datos
históricos y las suposiciones sobre las condiciones futuras para predecir los
resultados de los eventos.
En la actualidad hay herramientas de minería de texto disponibles para
ayudar a las empresas a analizar datos no estructurados.
El descubrimiento y análisis de los patrones útiles y la información
proveniente de world wide web se denomina minería web.
En un entorno cliente/servidor, el DBMS reside en una computadora dedicada
llamada servidor de base de datos. El DBMS recibe las solicitudes de SQL y
provee datos requeridos. El middleware transforma la información de la base de
datos interna y la devuelve al servidor web para que la ofrezca en forma de una
página web al usuario.
Hay varias ventajas en cuanto al uso de web para acceder a las base de
datos internas de una organización. En primer lugar, el software de navegador
web es mucho más fácil de usas que las herramientas de consultas propietarias.
En segundo lugar, la interfaz web requiere pocos o ningún cambio en la base de
datos interna. Es mucho menos costoso agregar un interfaz web frente a un
sistema heredado que rediseñar y reconstruir el sistema para mejorar el acceso
de los usuarios.
Administración de los recursos de datos
Una política de
información es la que especifica las reglas de la organización para compartir,
diseminar, adquirir, estandarizar, clasificar e inventar la información.
La administración
de datos es responsable de las políticas y procedimientos específicos a través
de los cuales se pueden administrar los datos como un recurso organizacional.
La gobernanza de
datos es promovida por IBM y se encarga de los políticas y procedimientos para
administrar la disponibilidad, utilidad, integridad y seguridad de los datos
empleados en una empresa, con énfasis especial en promover la privacidad,
seguridad, calidad de los datos y cumplimiento con las regulaciones gubernamentales.
Si una base de
datos está diseñada en forma apropiada y hay estándares de datos establecidos a
nivel empresarial, los elementos de datos duplicados o inconsistentes deben
reducirse al mínimo.
La auditoría de
calidad de datos es una encuesta estructurada
de la precisión y el nivel de su integridad en un sistema de
información.
La limpieza de
datos, data scrubbing, consiste en actividades para detectar y corregir datos
en una base que sean incorrectos, incompletos, que tengan un formato
inapropiado o que sean redundantes.
No hay comentarios.:
Publicar un comentario