Home Explore Data Mining: Concepts, Models, Methods, and Algorithms

Data Mining: Concepts, Models, Methods, and Algorithms

Published by Willington Island, 2021-07-21 14:27:35

Description: The revised and updated third edition of Data Mining contains in one volume an introduction to a systematic approach to the analysis of large data sets that integrates results from disciplines such as statistics, artificial intelligence, data bases, pattern recognition, and computer visualization. Advances in deep learning technology have opened an entire new spectrum of applications. The author explains the basic concepts, models, and methodologies that have been developed in recent years.

This new edition introduces and expands on many topics, as well as providing revised sections on software tools and data mining applications. Additional changes include an updated list of references for further study, and an extended list of problems and questions that relate to each chapter.This third edition presents new and expanded information that:

• Explores big data and cloud computing
• Examines deep learning
• Includes information on CNN

ALGORITHM'S THEOREM

Read the Text Version

Pages:

630 BIBLIOGRAPHY Yeung D. S., E. C. C. Tsang, A Comparatice Study on Similarity-Based Fuzzy Reasoning Methods, IEEE Transaction on System, Man, and Cybernetics, Vol. 27, No. 2, April 1997, pp. 216–227. Zadeh L. A., Fuzzy Logic = Computing with Words, IEEE Transactions on Fuzzy Systems, Vol. 4, No. 2, May 1996, pp. 103–111. Zadeh L. A., Knowledge Representation in Fuzzy Logic, IEEE Transactions on Knowledge and Data Engineering, Vol. 1, No. 1, March 1989, pp. 89–99. CHAPTER 15 Barry A. M. S., Visual Intelligence, State University, New York Press, New York, 1997. Bikakis, N., Big Data Visualization Tools, in “Encyclopedia of Big Data Technologies”, Sakr Sherif, Zomaya Albert, Eds., Springer, 2018. Bohlen M., 3D Visual Data Mining – Goals and Experiences, Computational Statistics & Data Analysis, Volume 43, No. 4, August 2003, pp. 445–469. Buja A., D. Cook, D. F. Swayne, Interactive High-Dimensional Data Visualization, http:// www.research.att.com/andreas/xgobi/heidel. Chen C., R. J. Paul, Visualizing a Knowledge Domain’s Intellectual Structure, Computer, Vol. 36, No. 3, March 2001, pp. 65–72. Draper G. M., L. Y. Livnat, R. F. Riesenfeld, A Survey of Radial Methods for Information Vis- ualization, IEEE Transaction on Visualization and Computer Graphics, Vol. 15, No. 5, Sep- tember/October 2009, pp. 759–776. Eick S. G., Visual Discovery and Analysis, IEEE Transaction on Visualization and Computer Graphics, Vol. 6, No. 1, January-March 2000a, pp. 44–57. Eick S. G., Visualizing Multi-dimensional Data, Computer Graphics, February 2000b, pp. 61–67. Elmqvist N., J. Fekete, Hierarchical Aggregation for Information Visualization: Overview, Techniques and Design Guidelines, IEEE Transactions on Visualization and Computer Graphics, Vol. 16, No. 3, May/June 2010, pp. 439–454. Estrin D., et al. Network Visualization with Nam, the VINT Network Animator, Computer, Vol. 33, No. 11, November 2000, pp. 63–68. Faloutsos C., K. Lin, FastMap: A Fast Algorithm for Indexing, Data-Mining and Visualization of Traditional and Multimedia Datasets, Proceedings of SIGMOD’95 Conference, San Jose, 1995, pp. 163–174. Fayyad U., G. Georges Grinstein, A. Wierse, Information Visualization in Data Mining and Knowledge Discovery, Morgan Kaufmann; 1st edition, 2001. Fayyad U. M., G. G. Grinstein, A. Wierse, Information Visualization in Data Mining and Knowledge Discovery, Academic Press, San Diego, 2002a. Fayyad U., G. G. Grinstein, A. Wierse, eds., Information Visualization in Data Mining and Knowledge Discovery, Morgan Kaufmann Publishers, San Francisco, CA, 2002b. Ferreira de Oliveira M. C., H. Levkowitz, From Visual Data Exploration to Visual Data Mining: A Survey, IEEE Transactions on Visualization and Computer Graphics, Vol. 9, No. 3, July- September 2003, pp. 378–394.

BIBLIOGRAPHY 631 Gallaghar R. S., Computer Visualization: Graphics Techniques for Scientific and Engineering Analysis, CRC Press, Inc., Boca Raton, 1995. Hinneburg A., Keim D. A., Wawryniuk M., HD-Eye: Visual Mining of High-Dimensional Data, IEEE Computer Graphics and Applications, September/October 1999, pp. 22–31. Hofman P., Radviz, http:www.cs.uml.edu/phoffman/viz. Hofmann, M., A. Chisholm, Text Mining and Visualization: Case Studies Using Open-Source Tools, CRC Press, 2016. Huang, M., Huang, W., Innovative Approaches of Data Visualization and Visual Analytics, IGI Global, 2013. IBM, Parallel Visual Explorer at Work in the Money Market, http://wwws.ibm.com/news/ 950203/pve-03html. Inselberg A., B. Dimsdale, Visualizing Multi-Variate Relations with Parallel Coordinates, Pro- ceedings of the Third International conference on Human-Computer Interaction, New York, 1989, pp. 460–467. Mackinlay J. D., Opportunities for Information Visualization, IEEE Computer Graphics and Applications, January/February 2000, pp. 22–23. Masseglia F., P. Poncelet, T. Teisseire, Successes and New Directions in Data Mining, Idea Group Inc., 2007. Plaisant C., The Challenge of Information Visualization Evaluation, IEEE Proceedings of the Advanced Visual Interfaces, Gallipoli, Italy, 2004, pp. 109–116. Pu P., G. Melissargos, Visualizing Resource Allocation Tasks, IEEE Computer Graphics and Applications, July/August 1997, pp. 6–9. Roth S. F., M. C. Chuah, S. Kerpedjiev, J. A. Kolojejchick, P. Lukas, Towards an Information Visualization Workspace: Combining Multiple Means of Expressions, Human-Computer Interaction Journal, July 1997, pp 61–70. Segall, Richard S., Jeffrey S. Cook, Handbook of Research on Big Data Storage and Visual- ization Techniques, IGI Global, 2018. Spence R., Information Visualization, Addison Wesley, Harlow, England, 2001. Tergan S., T. Keller, Knowledge and Information Visualization: Searching for Synergies, Springer, 2005. Thomsen E., OLAP Solution: Building Multidimensional Information System, John Wiley, New York, 1997. Tufte E. R., Beautiful Evidence, 2nd edition, Graphic Press, LLC, January 2007. Two Crows Corp., Introduction to Data Mining and Knowledge Discovery, Two Crows Corporation, 2005. Wong P. C., Visual Data Mining, IEEE Computer Graphics and Applications, September/October 1999, pp. 20–21.

INDEX Activation function, 235 classification base on multiple association Agglomerative clustering algorithms, 306 rule (CMAR), 346 Aggregation, 17 Allela, 466 FP growth, 344 Alpha cut, 501, 503 Asymptotic consistency, 105 Alternation, 477 Authorities, 363 Analysis of variance (ANOVA), 181 Autoassociation, 243 Anchored visualization, 542 Auto-encoder, 268 Andrews’s curve, 538 A posterior distribution, 172 Bar chart, 537 Approximate reasoning, 514 Bayesian inference, 172 Approximating functions, 100, 141 Bayesian networks, 158, 436 Approximation by rounding, 85 Bayes theorem, 172 A priori algorithm, 338 Big data, 12, 18 Binary features, 302 concept hierarchy, 343 Bins, 84, 221, 540 incremental updating, 343 Bins cutoff, 83 partition-based, 342 Bitcoin, 590 sampling-based, 343 Blockchain, 590 A prior distribution, 172 Bootstrap method, 142 A priori knowledge, 5, 83 Boxplot, 50, 170 Artificial neural network (ANN), 231 Building blocks, 254, 482, 600 Artificial neural network, architecture, 237 competitive, 255 Candidate counting, 338 feedforward, 237 Candidate generation, 338 recurrent, 237 Cardinality, 503 self-organizing map (SOM), 259 Cases reduction, 90 Artificial neuron, 233 Causality, 101, 435 Association rules, 116, 335 Censoring, 48 Apriori, 338 Centroid, 298, 413 Data Mining: Concepts, Models, Methods, and Algorithms, Third Edition. Mehmed Kantardzic. © 2020 by The Institute of Electrical and Electronics Engineers, Inc. Published 2020 by John Wiley & Sons, Inc. 633

634 INDEX Chameleon, 309 Correspondence analysis, 186 Change detection, 3, 115 Cosine correlation, 301 Chatbot, 594 Covariance matrix, 52, 71, 80 Chernoff’s faces, 539 Crisp approximation, 522 ChiMerge technique, 86 Crossover, 467, 472 Chi-squared test, 186, 188 Curse of dimensionality, 36, 53 Chromosome, 466 Circular coordinates, 544 Data cleansing, 116 City block distance, 301 Data collection, 10, 443 Classification, 3, 97 Data constellations, 540 Data cube, 537 C4.5, 201 Data discovery, 3, 9, 26 CART, 219 Data integration, 17 ID3, 116, 200 Data mart, 16 k-NN, 134 Data mining, 2 SVM, 117 Classifier, 123, 134, 198 privacy, 442 Cloud computing, 449 security, 21, 442 CLS, 116, 202 legal aspects, 442 Cluster analysis, 116, 295 Data mining process, 23, 34 Cluster feature vector (CF), 315 Data mining roots, 4 Clustering, 3, 295 Data mining tasks, 3 BIRCH, 55, 320 Data preprocessing, 8, 10 DBSCAN, 55, 317 Data quality, 14, 64 incremental, 313 Data representation, 62, 408 k-means, 311 Data science, 18 k-medoids, 313 Data scrubbing, 16, 116 using genetic algorithms, 468 Data set, 62, 168 validation, 323 iris, 82 Clustering tree, 298 messy, 38 Clustering validation, 323 preparation, 8 cluster cohesion, 324 quality, 14 cluster separation, 324 raw, 34 external measures, 324 semistructured, 13, 358 internal measures, 324 structured, 13 Competitive learning rule, 255 temporal, 36 Complete-link method, 309 time-dependent, 44 Confidence, 50, 141, 214, 338 transformation, 40 Confirmatory visualization, 536 unstructured, 13 Confusion matrix, 143 Data set dimensions, 62 Contingency table, 86 cases, 62 Control theory, 5, 241 columns, 62 Convolutional neural networks (CNN), feature values, 62 Data sheet, 541 116, 270 Data smoothing, 41, 116 convolution, 270 Data types, 14, 25, 422 pooling, 272 alphanumeric, 13 Core, 318 categorical, 34 Correlation coefficient, 70, 180, 425

INDEX 635 dynamic, 36 Error back-propagation algorithm, 246 numeric, 34 Error-correction learning, 240 symbolic, 34 Error energy, 247 Data warehouse, 15, 532 Error rate, 280 Decimal scaling, 40 Euclidean distance, 301 Decision node, 199 Exponential moving average, 47 Decision rules, 116, 215 Exploratory analysis, 2 Decision tree, 116, 199 Exploratory visualizations, 536 Deduction, 98 Extension principle, 510 Deep learning, 264 Deep neural networks, 232, 264 False acceptance rate (FAR), 148 Default class, 218 False reject rate (FRT), 148 Defuzzification, 518 Fault tolerance, 233, 451 Delta rule, 240 Feature composition, 67 Dendogram, 299, 308 Feature discretization, 83, 86 Dependency modeling, 3, 114 Feature ranking, 67 Descriptive accuracy, 63 Feature reduction, 67 Descriptive data mining, 3 Feature selection, 67 Designed experiment, 7, 100 Deviation detection, 3, 115 relief algorithm, 75 Differences, 42 Filtering data, 62 Dimensional stacking, 540 First-principle models, 2 Directed acyclic graph (DAG), 369, 437 Fitness evaluation, 470 Discrete Fourier Transform (DFT), 412 F-list, 347 Discrete optimization, 468 FP-tree, 344 Discrete Wavelet Transform (DWT), 412 Free parameters, 105, 239 Discriminant function, 189 Function approximation, 244 Distance error, 85 Fuzzification, 518 Distance measure, 40, 78, 117, 138, 221, 300 Fuzzy inference systems, 116, 513 Distributed data mining, 426 Fuzzy logic, 513 distributed DBSCAN, 432 Fuzzy number, 503 Divisible clustering algorithms, 116, 306 Fuzzy relation, 509 Document visualization, 379 Domain-specific knowledge, 7, 379 containment, 509 Don’t care symbol, 480 equality, 509 Fuzzy rules, 514 Eigenvalue, 81, 381 Fuzzy set, 526 Eigenvector, 81, 364, 380 Fuzzy set operation, 504 Empirical risk, 104 cartesian product, 505 Empirical risk minimization (ERM), 105 complement, 504 Encoding, 8, 469, 491 concentration, 507 Encoding scheme, 469 dilation, 507 Ensemble learning, 279 intersection, 504 normalization, 507 AdaBoost, 288 union, 504 bagging, 286 boosting, 288 Gain function, 203 Entropy, 77 Gain-ratio function, 209 Gaussian membership function, 502

636 INDEX Gene, 466 Info function, 203 Generalization, 138 Information visualization, 536 Generalized Apriori, 344 Information retrieval (IR), 358 Generalized modus ponens, 515 Infrastructure as a Service (IaaS), 453 Genetic algorithm, 465 Initial population, 476 Genetic operators, 478 Interesting association rules, 341 Internet searching, 376 crossover, 478 Interval scale, 34 mutation, 478 Inverse document frequency, 376 selection, 471 Itemset, 337, 419 Geometric projection visualization, 538 GINI index, 219 Jaccard coefficient, 303 Glyphs, 539 G-mean, 154 Kernel function, 127 Gradviz, 547 Knowledge distillation, 378 Graph mining, 392 centrality, 398 Large data set, 141, 170, 538 closeness, 399 Large itemset, 338 betweenness, 399 Large reference sequence, 370 Graph compression, 405 Latent semantic analysis (LSA), 379 Graph clustering, 400, 406 Lateral inhibition, 255 Gray coding, 470 Learning machine, 99 Greedy optimization, 108 Learning method, 99 Grid-based rule, 521 Learning process, 99, 239 Growth function, 106 Learning rate, 241, 456 Learning system, 104, 110, 458 Hamming distance, 78, 506 Learning tasks, 112 Hamming networks, 257 Learning theory, 4, 104 Hard limit function, 235 Learning without teacher, 110 Heteroassociation, 243 Learning with teacher, 110 Hidden node, 250 Leave-one-out method, 142 Hierarchical clustering, 306 Lift chart, 143 Hierarchical visualization techniques, 540 Linear discriminant analysis (LDA), 189 Histogram, 537 Line chart, 537 Holdout method, 141 Linguistic variable, 508 Hubs, 363 Local gradient, 249 Hyperbolic tangent sigmoid, 236 Locus, 466 Hypertext, 377 Logical classification models, 201 Log-linear models, 185 Icon-based visualization, 539 Log-sigmoid function, 235 Image kernel, 272 Longest common sequence (LCS), 415 Imbalanced data, 150 Loss function, 102 classification, 150 Machine learning, 4 re-balance, 151 Mamdani model, 521 Induction, 98 Manipulative visualization, 536 Inductive-learning methods, 110 MapReduce, 451 Inductive machine learning, 99 Inductive principle, 103

INDEX 637 Market basket analysis, 337 OLAP (online analytical processing), 18 Markov model (MM), 416 Optimization, 108 Ordinal scale, 35 hidden Markov model (HMM), 417 Outlier analysis, 49 Max-min composition, 512 Outlier detection, 49 MD-pattern, 349 Outlier detection, distance based, 53 Mean, 41, 51, 68, 168 Overfitting (overtraining), 108, 252 Median, 168 Membership function, 327, 499 PageRank algorithm, 371 Metric distance measure, 301 Parabox, 540 Minkowski metric, 301 Parallel coordinates, 542 Min-max normalization, 41 Parameter identification, 5 Misclassification, 103, 142 Partially matched crossover (PMC), 484 Missing data, 210 Partitional clustering, 310 Mode, 168 Pattern, 6 Model, 6 association, 243 estimation, 142 recognition, 243 selection, 138 Pearson correlation coefficient, 70 validation, 140 Perception, 534 verification, 140 Personalization, 597 Momentum constant, 251 Piecewise aggregate approximation Moving average, 40 Multidimensional association rules, 349 (PAA), 409 Multifactorial evaluation, 518 Pie chart, 537, 548 Multilayer perceptron, 245 Pixel-oriented visualization, 540 Multiple discriminant analysis, 191 Platform as a Service (PaaS), 453 Multiple regression, 178 Population, 470 Multiscape, 541 Possibility measure, 506 Multivariate analysis of variance Postpruning, 214 Prediction, 2 (MANOVA), 183 Predictive accuracy, 74, 140 Mutual neighbor distance (MND), 305 Predictive data mining, 3 Predictive regression, 175 Naïve Bayesian classifier, 172 Prepruning, 214 N-dimensional data, 53 Principal components, 73, 81 N-dimensional space, 297 Principal component analysis (PCA), 80 N-dimensional visualization, 117 Projected database, 348 N-fold cross-validation, 142 Pruning decision tree, 214 Necessity measure, 506 Purity, 219, 326 Negative border, 340 Neighbor number (NN), 305 Q learning, 455 Neuro-Fuzzy system, 528 Nominal scale, 35 Radial visualization (Radviz), 544 Normalization, 40 Radio frequency identification (RFID), NP hard problem, 55 Null hypothesis, 167 443, 596 Rand index, 326 Objective function, 122, 467 Random variable, 167, 436 Observational approach, 7 Rao’s coefficient, 303

638 INDEX Ratios, 42 Single-link method, 307 Ratio scale, 34 Smoothing data, 41 Receiver operating characteristic (ROC), 147 SMOTE, 151 Regression, 167, 175 Software as a Service (SaaS), 453 Spatial data mining, 422 equation, 176 logistic, 184 autoregressive model, 424 linear, 176 spatial outlier, 425 multiple, 178 Specificity, 144 nonlinear, 179 Split-info function, 209 Reinforcement learning, 454 SQL (Structured query language), 18 Resampling methods, 141 SSE (Sum of squares of the errors), 176 Resubstitution method, 141 Standard deviation, 37, 41, 145, 168 Return on investment (ROI) chart, 147 Star display, 539 Risk functional, 102 Statistics, 4 Rotation method, 142 Statistical dependency, 101 RuleExchange, 488 Statistical inference, 166 RuleGeneralization, 489 Statistical learning theory (SLT), 104 RuleSpecialization, 489 Statistical methods, 165 RuleSplit, 489 Statistical testing, 167 Stochastic approximation, 108 Sample, 6 Stopping rules, 107 Sampling, 90 Strong rules, 338 Structural risk minimization (SRM), 106 average, 92 Structure identification, 5 incremental, 92 Summarization, 113, 379 inverse, 92 Supervised learning, 110 random, 92 Support, 123, 337, 346, 402, 419, 502 stratified, 92 Survey plot, 538 systematic, 91 Survival data, 48 Saturating linear function, 235 Synapse, 233 Scaling, 8, 40, 414, 547 System identification, 5 Scatter plot, 170, 537 Schemata, 480 Tchebyshev distance, 506 fitness, 480 Temporal data mining, 406 length, 481 order, 481 sequences, 407 Scientific visualization, 535 time series, 407 Scrubbing, 16, 116 Testing sample, 135, 214 Semi-supervised learning (SSL), 131 Test of hypothesis, 167 Semi-supervised support vector machines Text analysis, 376 Text database, 375 (S3VM), 131 Text mining, 375 Sensitivity, 108, 144, 148 Text-refining, 379 Sequence, 368 Time lag (time window), 45 Sequence mining, 369 Time series Sequential pattern, 420 multivariate, 48 Silhouette coefficient, 325 univariate, 48 Similarity measure, 77, 299, 413 Training sample, 105, 173, 201, 247, 284 Simple matching coefficient (SMC), 302

INDEX 639 Transduction, 98 Visual clustering, 553 Traveling salesman problem (TSP), 467 Visual data mining, 535, 539 Trial and error, 6, 53, 454 Visualization, 533 True risk functional, 104 Visualization tool, 18, 170, 540 Voronoi diagram, 135 Ubiquitous data mining, 422 Underfitting, 108 Web mining, 357 Unobserved inputs, 14, 100 content, 358 Unsupervised learning, 110, 255 HITS(Hyperlink-Induced Topic Search), 362 Value reduction, 83 LOGSOM algorithm, 366 Vapnik–Chervonenkis (VC) theory, 104 path-traversal patterns, 368 structure, 360 dimension, 106 usage, 360 Variables, 13 Web page continuous, 34 content, 360 categorical, 34 design, 358 dependent, 13 quality, 359 discrete, 34 independent, 13 Web site nominal, 34 design, 358 numeric, 34 structure, 359 ordinal, 35 periodic, 35 Widrow–Hoff rule, 240 unobserved, 13 Winner-take-all rule, 255, 257, 260 Variance, 68, 70, 169, 181, 395 Variogram cloud technique, 424 XOR problem, 238

Pages:

Willington Island

Data Mining: Concepts, Models, Methods, and Algorithms

Like this book? You can publish your book online for free in a few minutes!

Create your own flipbook

TOP SEARCH

business design fashion music health life sports home marketing children

Data Mining: Concepts, Models, Methods, and Algorithms

Read the Text Version

Willington Island

TOP SEARCH

RELATED PUBLICATIONS