¿Qué es la minería de datos?
El McKinsey Global Institute (MGI) informa que la mayoría de las empresas estadounidenses con más de 1000 empleados tenían un promedio de al menos 200 terabytes de datos almacenados. MGI proyecta que la cantidad de datos generados en todo el mundo aumentará en un 40% anual, creando oportunidades rentables para que las empresas aprovechen sus datos para reducir costos y aumentar sus resultados. Por ejemplo, los minoristas que aprovechan al máximo estos \"grandes datos\" podrían esperar obtener un aumento en su margen operativo de más del 60 %, según el informe de MGI, y los proveedores de atención médica y las organizaciones de mantenimiento de la salud (HMO, por sus siglas en inglés) que aprovechan adecuadamente sus almacenes de datos podrían lograr un ahorro de costos de $300 al año, a través de una mayor eficiencia y calidad.
El MIT Technology Review informa que fue el uso efectivo de la minería de datos de la campaña de Obama lo que ayudó al presidente Obama a ganar las elecciones presidenciales de 2012 sobre Mitt Romney. Primero identificaron a los probables votantes de Obama utilizando un modelo de extracción de datos y luego se aseguraron de que estos votantes realmente acudieran a las urnas. La campaña también usó un modelo de minería de datos separado para predecir los resultados de las encuestas condado por condado. En el condado cambiante del condado de Hamilton, Ohio, el modelo predijo que Obama recibiría el 56,4% de los votos; la participación de Obama en el voto real fue del 56,6 %, por lo que la predicción se desvió solo en un 0,02 %. Tal poder predictivo preciso permitió que el personal de la campaña asignara los escasos recursos de manera más eficiente.
Alrededor de 13 millones de clientes al mes se comunican con el centro de llamadas de atención al cliente de la Costa Oeste del Bank of America, según informa CIO Magazine. En el pasado, cada persona que llamaba habría escuchado el mismo anuncio de marketing, fuera o no relevante para los intereses de la persona que llama. Sin embargo, “en lugar de presentar el producto de la semana, queremos ser lo más relevantes posible para cada cliente”, afirma Chris Kelly, vicepresidente y director de marketing de bases de datos de Bank of America en San Francisco. De esta forma, los representantes de servicio al cliente de Bank of America tienen acceso a los perfiles individuales de los clientes, para que el cliente pueda estar informado de nuevos productos o servicios que puedan ser de su mayor interés. Este es un ejemplo de extracción de datos de clientes para ayudar a identificar el tipo de enfoque de marketing para un cliente en particular, según el perfil individual del cliente. Entonces, ¿qué es la minería de datos? La minería de datos es el proceso de descubrir patrones y tendencias útiles en grandes conjuntos de datos. Mientras esperas en la cola de un gran supermercado, ¿alguna vez has cerrado los ojos y escuchado? Es posible que escuche el bip, bip, bip de los escáneres de los supermercados, leyendo los códigos de barras en los artículos del supermercado, marcando en la caja registradora y almacenando los datos en los servidores de la empresa. Cada pitido indica una nueva fila en la base de datos, una nueva “observación” en la información que se recopila sobre los hábitos de compra de su familia y de las otras familias que están pagando. Claramente, se están recopilando muchos datos. Sin embargo, ¿qué se está aprendiendo de todos estos datos? ¿Qué conocimiento estamos obteniendo de toda esta información? Probablemente no tanto como podría pensar, porque hay una grave escasez de analistas de datos capacitados.
Se buscan: mineros de datos En 1984, en su libro Megatrends , John Naisbitt observó que “Nos estamos ahogando en información pero estamos hambrientos de conocimiento”. El problema actual no es que no haya suficientes datos e información. De hecho, estamos inundados de datos en la mayoría de los campos. Más bien, el problema es que no hay suficientes analistas humanos capacitados disponibles que sean hábiles para traducir todos estos datos en conocimiento y, de ahí, escalar el árbol taxonómico en sabiduría. Crear Evaluar Analizar Aplicar Comprender Recordar
El notable crecimiento en curso en el campo de la minería de datos y el descubrimiento de conocimientos ha sido impulsado por una afortunada confluencia de una variedad de factores: • El crecimiento explosivo en la recopilación de datos, como lo ejemplifican los escáneres de supermercados anteriores. • El almacenamiento de los datos en almacenes de datos, de modo que toda la empresa tenga acceso a una base de datos actualizada y confiable. • La disponibilidad de un mayor acceso a los datos desde la navegación web e intranets. • El desarrollo de software comercial de extracción de datos \"listo para usar\"., • El crecimiento exponencial en potencia de sistemas de cómputo y la capacidad de almacenamiento. Desafortunadamente, según el informe de McKinsey, habrá una escasez de talento necesario para que las organizaciones aprovechen el big data. Una limitación importante para obtener valor de los grandes datos será la escasez de talento, en particular de personas con una gran experiencia en estadísticas y aprendizaje automático, y los gerentes y analistas que saben cómo operar empresas utilizando conocimientos de los grandes datos.
La necesidad de la dirección humana de la minería de datos Muchos proveedores de software comercializan su software analítico como una aplicación lista para usar que brindará soluciones a problemas que de otro modo serían intratables, sin necesidad de supervisión o interacción humana. Algunas definiciones tempranas de minería de datos siguieron este enfoque en la automatización. Por ejemplo, Berry y Linoff, en su libro Data Mining Techniques for Marketing, Sales and Customer Support dieron la siguiente definición de minería de datos: “La minería de datos es el proceso de exploración y análisis, por medios automáticos o semiautomáticos, de grandes cantidades de datos para descubrir patrones y reglas significativos”.
Tres años más tarde, en su secuela Mastering Data Mining, los autores revisan su definición de minería de datos y mencionan que, “Si hay algo de lo que nos arrepentimos, es la frase ‘por medios automáticos o semiautomáticos’, porque sentimos que se ha llegado a centrar demasiado en las técnicas automáticas y no lo suficiente en la exploración y el análisis. Esto ha llevado a muchas personas a creer que la minería de datos es un producto que se puede comprar en lugar de una disciplina que se debe dominar”. ¡Muy bien dicho!
La automatización no es un sustituto del aporte humano. Los seres humanos deben participar activamente en cada fase del proceso de extracción de datos. En lugar de preguntar dónde encajan los humanos en la minería de datos, deberíamos preguntar cómo podemos diseñar la minería de datos en el proceso muy humano de resolución de problemas. Además, el mismo poder de los formidables algoritmos de extracción de datos integrados en el software de caja negra actualmente disponible hace que su mal uso sea proporcionalmente más peligroso. Al igual que con cualquier nueva tecnología de la información, la minería de datos es fácil de hacer mal. Los investigadores pueden aplicar análisis inapropiados a conjuntos de datos que requieren un enfoque completamente diferente, por ejemplo, o se pueden derivar modelos que se basan en suposiciones totalmente engañosas. Por lo tanto, se requiere una comprensión de las estructuras del modelo estadístico y matemático que subyace al software.
Falacias de la minería de datos Hablando ante el Subcomité de Tecnología, Política de Información, Relaciones Intergubernamentales y Censo de la Cámara de Representantes de EE. UU., Jen Que Louie, presidente de Nautilus Systems, Inc., describió falacias de la minería de datos. Dos de estas falacias son paralelas a las advertencias que hemos descrito anteriormente. Falacia 1. Existen herramientas de minería de datos que podemos utilizar en nuestros repositorios de datos y encontrar respuestas a nuestros problemas. • Realidad. No existen herramientas automáticas de minería de datos que resuelvan mecánicamente sus problemas “mientras espera”. Más bien, la minería de datos es un proceso iterativo como es la metodología CRISP-DM. Falacia 2. El proceso de extracción de datos es autónomo y requiere poca o ninguna supervisión humana. • Realidad. La minería de datos no es magia. Sin la supervisión humana calificada, el uso ciego del software de minería de datos solo le proporcionará la respuesta incorrecta a la pregunta incorrecta aplicada al tipo de datos incorrecto. Además, el análisis erróneo es peor que ningún análisis, ya que conduce a recomendaciones de políticas que probablemente resulten ser fallas costosas. Incluso después de implementar el modelo, la introducción de nuevos datos a menudo requiere una actualización del modelo. El monitoreo continuo de la calidad y otras medidas de evaluación deben ser evaluados por analistas humanos.
Falacia 3. La minería de datos se paga por si sola con bastante rapidez. • Realidad. Las tasas de devolución varían según los costos de puesta en marcha, los costos de personal de análisis, los costos de preparación del almacenamiento de datos, etc. Falacia 4. Los paquetes de software de minería de datos son intuitivos y fáciles de usar. • Realidad. Una vez más, la facilidad de uso varía. Sin embargo, independientemente de lo que digan algunos anuncios de proveedores de software, no puede simplemente comprar un software de minería de datos, instalarlo, sentarse y ver cómo resuelve todos sus problemas. Por ejemplo, los algoritmos requieren formatos de datos específicos, que pueden requerir un preprocesamiento sustancial. Los analistas de datos deben combinar el conocimiento de la materia con una mente analítica y familiaridad con el modelo comercial o de investigación general. Falacia 5. La minería de datos identificará las causas de nuestros problemas comerciales o de investigación. • Realidad. El proceso de descubrimiento de conocimientos le ayudará a descubrir patrones de comportamiento. Nuevamente, depende de los humanos identificar las causas.
Falacia 6. La extracción de datos limpiará automáticamente nuestra desordenada base de datos. • Realidad. Bueno, no automáticamente. Como fase preliminar en el proceso de minería de datos, la preparación de datos a menudo trata con datos que no han sido examinados o utilizados en años. Por lo tanto, las organizaciones que inician una nueva operación de minería de datos a menudo se enfrentarán al problema de los datos que han estado tirados durante años, están obsoletos y necesitan una actualización considerable. Falacia 7. La minería de datos siempre arroja resultados positivos. • Realidad. No hay garantía de resultados positivos cuando se extraen datos para obtener conocimiento procesable. La minería de datos no es una panacea para resolver problemas de negocios. Pero, si se usa adecuadamente, por personas que entienden los modelos involucrados, los requisitos de datos y los objetivos generales del proyecto, la minería de datos puede proporcionar resultados procesables y altamente rentables. La discusión anterior puede haber sido denominada, lo que la minería de datos no puede o no debe hacer. A continuación, pasamos a una discusión sobre lo que puede hacer la minería de datos y que tipos de problemas de negocio o investigación se puedes atacar mediante minería de datos.
Descripción A veces, los investigadores y analistas simplemente están tratando de encontrar formas de describir patrones y tendencias que se encuentran dentro de los datos. Por ejemplo, un encuestador puede descubrir evidencia de que aquellos que han sido despedidos tienen menos probabilidades de apoyar al titular actual en las elecciones presidenciales. Las descripciones de patrones y tendencias a menudo sugieren posibles explicaciones para dichos patrones y tendencias. Por ejemplo, aquellos que son despedidos ahora están en peor situación financiera que antes de que se eligiera al titular, por lo que tenderían a preferir una alternativa. Los modelos de minería de datos deben ser lo más transparentes posible. Es decir, los resultados del modelo de minería de datos deben describir patrones claros que sean susceptibles de interpretación y explicación intuitivas. Algunos métodos de minería de datos son más adecuados para una interpretación transparente que otros. Por ejemplo, los árboles de decisión brindan una explicación intuitiva y amigable para los humanos de sus resultados. Por otro lado, las redes neuronales son comparativamente opacas para los no especialistas, debido a la no linealidad y complejidad del modelo. A menudo, se puede lograr una descripción de alta calidad con el análisis exploratorio de datos, un método gráfico para explorar los datos en busca de patrones y tendencias. Árbol de decisión Red neuronal
Descripción En la estimación, aproximamos el valor de una variable objetivo-numérica usando un conjunto de variables predictoras numéricas y/o categóricas. Los modelos se construyen utilizando registros \"completos\", que proporcionan el valor de la variable objetivo, así como los predictores. Luego, para nuevas observaciones, se realizan estimaciones del valor de la variable objetivo, en función de los valores de los predictores. Por ejemplo, podríamos estar interesados en estimar la lectura de la presión arterial sistólica de un paciente hospitalizado, en función de la edad, el sexo, el índice de masa corporal y los niveles de sodio en la sangre del paciente. La relación entre la presión arterial sistólica y las variables predictoras en el conjunto de entrenamiento nos proporcionaría un modelo de estimación. Luego podemos aplicar ese modelo a nuevos casos. Los ejemplos de tareas de estimación en los negocios y la investigación incluyen: • Estimar la cantidad de dinero que gastará una familia de cuatro miembros elegida al azar para las compras de regreso a la escuela este otoño • Estimar la disminución porcentual en el movimiento rotatorio sostenido por un corredor de fútbol americano con una lesión en la rodilla puntuación cuando hay doble equipo en los playoffs • Estimar el promedio de calificaciones (GPA) de un estudiante de posgrado, basado en el GPA de pregrado de ese estudiante.
Predicción La predicción es similar a la clasificación y estimación, excepto que, para la predicción, los resultados se encuentran en el futuro. Ejemplos de tareas de predicción en negocios e investigación incluyen: • Predecir el precio de una acción 3 meses en el futuro. • Predecir el aumento porcentual de las muertes por accidentes de tránsito el próximo año si se aumenta el límite de velocidad. • Predecir el ganador de la Serie Mundial de este otoño, con base en una comparación de las estadísticas del equipo. • Predecir si una molécula en particular en el descubrimiento de fármacos conducirá a un nuevo fármaco rentable para una empresa farmacéutica. Cualquiera de los métodos y técnicas utilizados para la clasificación y estimación también puede utilizarse, en las circunstancias apropiadas, para la predicción. Estos incluyen los métodos estadísticos tradicionales de estimación puntual y estimaciones de intervalos de confianza, regresión lineal simple y correlación, y regresión múltiple.
Clasificación La clasificación es similar a la estimación, excepto que la variable objetivo es categórica en lugar de numérica. En la clasificación, hay una variable categórica objetivo, como el tramo de ingresos, que, por ejemplo, podría dividirse en tres clases o categorías: ingresos altos, ingresos medios e ingresos bajos. El modelo de minería de datos examina un gran conjunto de registros, cada registro contiene información sobre la variable de destino, así como un conjunto de variables predictoras o de entrada.
Por ejemplo, supongamos que al investigador le gustaría poder clasificar el nivel de ingresos de las personas nuevas, que actualmente no están en la base de datos, según las otras características asociadas con esa persona, como la edad, el género y la ocupación. Esta tarea es una tarea de clasificación, muy adecuada para los métodos y técnicas de minería de datos.
Agrupación La agrupación se refiere a la agrupación de registros, observaciones o casos en clases de objetos similares. Un clúster es una colección de registros que son similares entre sí y diferentes a los registros de otros clústeres. El agrupamiento difiere de la clasificación en que no hay una variable objetivo para el agrupamiento. La tarea de agrupación no intenta clasificar, estimar o predecir el valor de una variable objetivo. En cambio, los algoritmos de agrupamiento buscan segmentar todo el conjunto de datos en subgrupos o conglomerados relativamente homogéneos, donde se maximiza la similitud de los registros dentro del conglomerado y se minimiza la similitud con los registros fuera de este conglomerado.
Asociación La tarea de asociación para la minería de datos es el trabajo de encontrar qué atributos “van juntos”. Más prevalente en el mundo de los negocios, donde se conoce como análisis de afinidad o análisis de canasta de mercado, la tarea de asociación busca descubrir reglas para cuantificar la relación entre dos o más atributos. Las reglas de asociación tienen la forma \"Si antecedente, entonces consecuente\", junto con una medida del apoyo y la confianza asociados con la regla. Por ejemplo, un supermercado en particular puede encontrar que, de los 1000 clientes que compraron un jueves por la noche, 200 compraron pañales, y de esos 200 que compraron pañales, 50 compraron cerveza. Así, la regla de asociación sería “Si compra pañales, entonces compra cerveza”, con un soporte de 200/1000 = 20% y una confianza de 50/200 = 25%. Los ejemplos de tareas de asociación en los negocios y la investigación incluyen: • Investigar la proporción de suscriptores al plan de telefonía celular de su empresa que responden positivamente a una oferta de actualización del servicio, • Examinar la proporción de niños cuyos padres les leen y que son buenos lectores, • Predecir degradación en las redes de telecomunicaciones, • Averiguar qué artículos en un supermercado se compran juntos y qué artículos nunca se compran juntos, • Determinar la proporción de casos en los que un nuevo medicamento exhibirá efectos secundarios peligrosos. • Todos los problemas de negocios descritos anteriormente han sido atacados mediante minería de datos.
Referencias Larose, Daniel T. y Chantal D. Larose (2014). Discovering Knowledge in Data : An Introduction to Data Mining. John Wiley & Sons, Incorporated. https://anahuac.primo.exlibrisgroup.com/permalink/52ANAHUAC_INST/k v8cge/alma993823337305016
Search
Read the Text Version
- 1 - 24
Pages: