Important Announcement
PubHTML5 Scheduled Server Maintenance on (GMT) Sunday, June 26th, 2:00 am - 8:00 am.
PubHTML5 site will be inoperative during the times indicated!

Home Explore Datos etiquetados y no etiquetados

Datos etiquetados y no etiquetados

Published by Anáhuac Online Grados, 2023-07-06 04:35:48

Description: ITI4704_M2_Datos etiquetados y no etiquetados

Search

Read the Text Version

Datos etiquetados y no etiquetado

Datos etiquetados y no etiquetados Tenemos un conjunto de datos de ejemplos (llamados instancias), cada uno de los cuales comprende los valores de una serie de variables, que en minería de datos a menudo se denominan atributos. Hay dos tipos de datos, que se tratan de formas radicalmente diferentes. Para el primer tipo hay un atributo especialmente designado y el objetivo es utilizar los datos proporcionados para predecir el valor de ese atributo para instancias que aún no se han visto.Los datos de este tipo se denominan etiquetados. La extracción de datos utilizando datos etiquetados se conoce como aprendizaje supervisado. Si el atributo designado es categórico, es decir, debe tomar uno de varios valores distintos como ‘muy bueno’, ‘bueno’ o ‘pobre’, o (en una aplicación de reconocimiento de objetos) ‘coche’, ‘bicicleta’, ‘ persona’, ‘autobús’ o ‘taxi’ la tarea se denomina clasificación. Si el atributo designado es numérico, por ejemplo, el precio de venta esperado de una casa o el precio de apertura de una acción en el mercado de valores de mañana, la tarea se llama regresión. Los datos que no tienen ningún atributo especialmente designado se denominan no etiquetados. La extracción de datos no etiquetados se conoce como aprendizaje no supervisado. Aquí el objetivo es simplemente extraer la mayor cantidad de información posible de los datos disponibles.

Aprendizaje Supervisado: Clasificación La clasificación es una de las aplicaciones más comunes para la minería de datos. Corresponde a una tarea que ocurre con frecuencia en la vida cotidiana. Por ejemplo, un hospital puede querer clasificar a los pacientes médicos en aquellos que se encuentran en un nivel alto, medio o bajo riesgo de contraer una determinada enfermedad, una empresa de encuestas de opinión puede querer clasificar a las personas entrevistadas en aquellas que tienen probabilidades de votar por cada uno de los partidos políticos o están indecisas, o podemos querer clasificar a un proyecto de estudiante como distinción, mérito, aprobado o reprobado. El siguiente ejemplo muestra una situación típica. Tenemos un conjunto de datos en forma de tabla que contiene las calificaciones de los estudiantes en cinco materias (los valores de los atributos SoftEng, ARIN, HCI, CSA y Project) y sus clasificaciones generales de grado. La fila de puntos indica que se han omitido varias filas en aras de la simplicidad. Queremos encontrar alguna forma de predecir la clasificación de otros estudiantes teniendo en cuenta solo sus “perfiles” de calificaciones. Datos de calificaciones de estudiantes SonftEng ARIN HCI CSA Project Class A B A B B Second A B B B B Second B A A B A Second A A A A B A A B B A First B A A B B First Second ........... ........... ........... ........... ........... A A B A B ........... First

Hay varias maneras en que podemos hacer esto, incluyendo las siguientes: • Coincidencia de vecinos más cercanos. Este método se basa en identificar (digamos) los cinco ejemplos que son “más cercanos” en algún sentido a uno no clasificado. Si los cinco “vecinos más cercanos” tienen grados Segundo, Primero, Segundo, Segundo y Segundo, podríamos concluir razonablemente que la nueva instancia debería clasificarse como “Segundo”. • Reglas de Clasificación. Buscamos reglas que podamos usar para predecir la clasificación de una instancia invisible, por ejemplo: • SI SoftEng = A Y Project = A ENTONCES Class = First  • SI SoftEng = A Y Project = B Y ARIN = B ENTONCES Class = Second  • SI SoftEng = B ENTONCES Class = Second Árbol de clasificación. Una forma de generar reglas de clasificación es a través de una estructura similar a un árbol intermedio llamada árbol de clasificación o árbol de decisión. En la Figura se muestra un posible árbol de decisión correspondiente a los datos de clasificación de grado. ÁRBOL DE CLASIFICACIÓN PARA CALIFICACIONES DE ESTUDIANTES

Aprendizaje supervisado: predicción numérica La clasificación es una forma de predicción, donde el valor a predecir es una etiqueta. La predicción numérica (a menudo llamada regresión) es otra. En este caso, deseamos predecir un valor numérico, como las ganancias de una empresa o el precio de una acción. Una forma muy popular de hacer esto es usar una red neuronal como se muestra en la figura 1.3 (a menudo llamada con el nombre simplificado de red neuronal). RED NEURONAL Esta es una técnica de modelado compleja basada en un modelo de una neurona humana. Una red neuronal recibe un conjunto de entradas y se utiliza para predecir una o más salidas.

Aprendizaje no supervisado: reglas de asociación A veces deseamos utilizar un conjunto de entrenamiento para encontrar cualquier relación que exista entre los valores de las variables, generalmente en forma de reglas conocidas como reglas de asociación. Hay muchas reglas de asociación posibles que se derivan de cualquier conjunto de datos dado, la mayoría de ellas de poco o ningún valor, por lo que es habitual que las reglas de asociación se establezcan con alguna información adicional que indique qué tan confiables son, por ejemplo: Sí variable 1 > 85 Y el interruptor 6 = abierto ENTONCES variable 23 < 47,5 Y el interruptor 8 = cerrado (probabilidad = 0,8) Una forma común de este tipo de aplicación se denomina “análisis de la cesta de la compra”. Si conocemos las compras realizadas por todos los clientes en una tienda durante, digamos, una semana, podemos encontrar relaciones que ayuden a la tienda a comercializar sus productos de manera más efectiva en el futuro. Por ejemplo, la regla SI queso Y leche ENTONCES pan (probabilidad = 0.7) indica que el 70% de los clientes que compran queso y leche también compran pan, por lo que sería sensato acercar el pan al mostrador de queso y leche, si la conveniencia del cliente fuera la principal preocupación, o separarlos para alentar la compra impulsiva de otros productos si las ganancias fueran

Aprendizaje no supervisado: agrupamiento Los algoritmos de agrupamiento examinan los datos para encontrar grupos de elementos que sean similares. Por ejemplo, una compañía de seguros podría agrupar a los clientes según sus ingresos, edad, tipos de pólizas adquiridas o experiencia previa en reclamaciones. En una aplicación de diagnóstico de avería, las fallas eléctricas pueden agruparse de acuerdo con los valores de ciertas variables clave.

Referencias Bramer, M. (2020). Principles of Data Mining. Springer. https://anahuac.primo.exlibrisgroup.com/ permalink/52ANAHUAC_INST/kv8cge/alma993936641305016 


Like this book? You can publish your book online for free in a few minutes!
Create your own flipbook