Important Announcement
PubHTML5 Scheduled Server Maintenance on (GMT) Sunday, June 26th, 2:00 am - 8:00 am.
PubHTML5 site will be inoperative during the times indicated!

Home Explore Árboles de decisión

Árboles de decisión

Published by Anáhuac Online Grados, 2023-07-10 16:09:13

Description: ITI4704_M3_Árboles de decisión

Search

Read the Text Version

Árboles de decisión X0 ≤ -12 X0 ≤ 9 X1 ≤ 9

Árboles de decisión El McKinsey Global Institute (MGI) informa que la mayoría de las empresas estadounidenses con más de 1000 empleados tenían un promedio de al menos 200 terabytes de datos almacenados. MGI proyecta que la cantidad de datos generados en todo el mundo aumentará en un 40% anual, creando oportunidades rentables para que las empresas aprovechen sus datos para reducir costos y aumentar sus resultados. Por ejemplo, los minoristas que aprovechan al máximo estos \"grandes datos\" podrían esperar obtener un aumento en su margen operativo de más del 60 %, según el informe de MGI, y los proveedores de atención médica y las organizaciones de mantenimiento de la salud (HMO, por sus siglas en inglés) que aprovechan adecuadamente sus almacenes de datos podrían lograr un ahorro de costos de $300 al año, a través de una mayor eficiencia y calidad.

Minería de datos Verificación Descubrimiento Predicción Descripción Clasificación Regresión Taxonomía de los métodos de minería de datos.

Cada tipo tiene su propia metodología. Los métodos de descubrimiento, que identifican automáticamente patrones en los datos, involucran tanto métodos de predicción como de descripción. Los métodos de descripción se enfocan en comprender la forma en que operan los datos subyacentes, mientras que los métodos orientados a la predicción tienen como objetivo construir un modelo de comportamiento para obtener muestras nuevas e invisibles y para predecir valores de una o más variables relacionadas con la muestra. Sin embargo, algunos métodos orientados a la predicción también pueden ayudar a comprender los datos. La mayoría de las técnicas orientadas al descubrimiento se basan en el aprendizaje inductivo, donde un modelo se construye explícita o implícitamente al generalizar a partir de un número suficiente de ejemplos de entrenamiento. La suposición subyacente del enfoque inductivo es que el modelo entrenado es aplicable a futuros ejemplos no vistos. Estrictamente hablando, cualquier forma de inferencia en la que las premisas no impliquen deductivamente las conclusiones puede considerarse inducción. Los métodos de verificación, por otro lado, evalúan una hipótesis propuesta por una fuente externa (como un experto, etc.). Estos métodos incluyen los métodos más comunes de las estadísticas tradicionales, como la prueba de bondad de ajuste, la prueba t de medias y el análisis de varianza. Estos métodos están menos asociados con la minería de datos que sus contrapartes orientadas al descubrimiento porque la mayoría de los problemas de minería de datos están relacionados con la selección de una hipótesis (de un conjunto de hipótesis) en lugar de probar una conocida. Los métodos estadísticos tradicionales generalmente se basan en la estimación del modelo en lugar de uno de los principales objetivos de la minería de datos: la identificación del modelo.



Métodos Supervisados En la comunidad de aprendizaje automático, los métodos de predicción se conocen comúnmente como aprendizaje supervisado. El aprendizaje supervisado se opone al aprendizaje no supervisado, que se refiere a modelar la distribución de instancias en un espacio de entrada típico de alta dimensión. Según [Kohavi y Provost (1998)], el término \"aprendizaje no supervisado\" se refiere a \"técnicas de aprendizaje que agrupan instancias sin un atributo dependiente preespecificado\". Por lo tanto, el término \"aprendizaje no supervisado\" cubre solo una parte de los métodos de descripción presentados en la Figura de la página 1. Por ejemplo, el término cubre métodos de agrupamiento, pero no métodos de visualización. Los métodos supervisados son métodos que intentan descubrir la relación entre atributos de entrada (a veces denominados variables independientes) y un atributo de destino (a veces denominado variable dependiente).

La relación que se descubre se representa en una estructura denominada Modelo. Por lo general, los modelos describen y explican fenómenos que están ocultos en el conjunto de datos y que se pueden usar para predecir el valor del atributo objetivo cuando se conocen los valores de los atributos de entrada. Los métodos supervisados se pueden implementar en una variedad de dominios, como marketing, finanzas y manufactura. Es útil distinguir entre dos modelos supervisados principales: modelos de clasificación (clasificadores) y modelos de regresión. Los modelos de regresión mapean el espacio de entrada en un dominio de valor real. Por ejemplo, un regresor puede predecir la demanda de un determinado producto dadas sus características. Por otro lado, los clasificadores mapean el espacio de entrada en clases predefinidas. Por ejemplo, los clasificadores se pueden usar para clasificar a los consumidores de hipotecas como buenos (pago total de la hipoteca a tiempo) y malos (pago retrasado). Clasificación Regresión

Árboles de Decisión 20% probability EXPECTED TOTAL 400% ROI VALUE EXPECTED $20 K VALUE $20 K BEST-CASE $31,250 1: FACEBOOK ADS PAYOFF 80% probability $0 0% ROI Where to WORST-CASE allocate $25K of our ad budget? 50% probability $25 K 200% ROI BEST-CASE 2: TRADE SHOW PAYOFF 50% probability $6,250 50% ROI WORST-CASE En minería de datos, un árbol de decisión es un modelo predictivo que se puede utilizar para representar clasificadores y modelos de regresión. En la investigación de operaciones, por otro lado, los árboles de decisión se refieren a un modelo jerárquico de decisiones y sus consecuencias. El tomador de decisiones emplea árboles de decisión para identificar la estrategia que tiene más probabilidades de alcanzar su objetivo. Cuando se utiliza un árbol de decisión para tareas de clasificación, es más adecuado denominarlo árbol de clasificación. Cuando se utiliza para tareas de regresión, se denomina árbol de regresión. Un árbol de decisión es un clasificador expresado como una partición recursiva del espacio de instancias. El árbol de decisión consta de nodos que forman un árbol con raíz, lo que significa que es un árbol dirigido con un nodo llamado \"raíz\" que no tiene bordes entrantes. Todos los demás nodos tienen exactamente un borde entrante. Un nodo con bordes salientes se denomina nodo \"interno\" o \"de prueba\". Todos los demás nodos se denominan \"hojas\" (también conocidos como nodos \"terminales\" o \"de decisión\"). En el árbol de decisión, cada nodo interno divide el espacio de la instancia en dos o más subespacios según una determinada función discreta de los valores de los atributos de entrada. En el caso más simple y frecuente, cada prueba considera un solo atributo, de modo que el espacio de la instancia se divide según el valor de los atributos. En el caso de atributos numéricos, la condición se refiere a un rango. Cada hoja se asigna a una clase que representa el objetivo más apropiado.

Alternativamente, la hoja puede contener un vector de probabilidad (vector de afinidad) que indica la probabilidad de que el atributo objetivo tenga un cierto valor. La figura describe un ejemplo de un árbol de decisión que razona si un cliente potencial responderá o no a un correo directo. Los nodos internos se representan como círculos, mientras que las hojas se denotan como triángulos. Dos o más ramas pueden crecer de cada nudo interno (es decir, no una hoja). Cada nodo se corresponde con una determinada característica y las ramas se corresponden con un rango de valores. Estos rangos de valores deben dar una partición del conjunto de valores de la característica dada. Las instancias se clasifican al navegar desde la raíz del árbol hasta una hoja, de acuerdo con el resultado de las pruebas a lo largo del camino. Ejemplo árboles de decisión

Árboles de decisión Específicamente, comenzamos con una raíz de un árbol; consideramos la característica que corresponde a una raíz; y definimos a qué rama corresponde el valor observado de la característica dada. Luego consideramos el nodo en el que aparece la rama dada. Repetimos las mismas operaciones para este nodo etc., hasta llegar a una hoja. Tenga en cuenta que este árbol de decisión incorpora atributos tanto nominales como numéricos. Dado este clasificador, el analista puede predecir la respuesta de un cliente potencial (clasificándolo hacia abajo en el árbol) y comprender las características de comportamiento de toda la población de clientes potenciales con respecto al correo directo. Cada nodo está etiquetado con el atributo que prueba y sus ramas están etiquetadas con sus valores correspondientes. En el caso de atributos numéricos, los árboles de decisión pueden interpretarse geométricamente como una colección de hiperplanos (donde en este caso, un hiperplano sería un subespacio formado por máximo uno menos (n-1) de los atributos que conforman la base de datos, ya que dentro de la base de datos debe existir el atributo objetivo a predecir, el cual no es tomado en cuenta para generar los subespacios o hiperplanos de atributos), cada uno ortogonal a uno de los ejes. Referencias Rokach, L. y Maimon, O. (2007). Minería de datos con árboles de decisión: teoría y aplicaciones. World Scientific Publishing Company, .


Like this book? You can publish your book online for free in a few minutes!
Create your own flipbook