DATA MINING 20
![]() |
![]() |
![]() |
Title of test:![]() DATA MINING 20 Description: Paniere di Data Mining 20 Capitoli Creation Date: 2022/03/28 Category: Others Number of questions: 72
|




New Comment |
---|
NO RECORDS |
2.1 - Che cosa è il Data Mining?. Il processo che estrae nuova conoscenza o identifica pattern/modelli nei dati mediante l'applicazione di diversi algoritmi. Il processo che estrae dati dai fenomeni mediante l'applicazione di diversi algoritmi. Il processo che estrae fenomeni dai dati mediante l'applicazione di diversi algoritmi. Nessuna delle altre alternative. 2.2 - Che cosa è un pattern?. Una espressione in un determinato linguaggio che descrive modelli descrittivi estratti da un sottoinsieme di registrazioni presenti in un data base. Una espressione in un determinato linguaggio che descrive i fatti di un sottoinsieme di registrazioni presenti in un data base. Una espressione in un determinato linguaggio che descrive modelli predittivi estratti da un sottoinsieme di registrazioni presenti in un data base. Nessuna delle altre alternative. 2.3 - Quale fra le seguenti attività non fa parte del processo di KDD. Interpretazione. Nessuna delle altre alternative. Data Mining. Selezione. 2.4 - Quale fra le seguenti attività non fa parte del processo di KDD?. Selezione. Intervista. Nessuna delle altre alternative. Data Mining. 3.1 - Cosa si intende per knowledge elicitation?. Il confronto fra gli esperti di uno specifico dominio e l'ingegnere della conoscenza al fine di aggiungere in fase di modellazione elementi che potrebbero non essere estraibili dai dati. Il confronto fra gli esperti informatici e l'ingegnere della conoscenza al fine di aggiungere in fase di modellazione elementi che potrebbero non essere estraibili dai dati. Nessuna delle altre alternative. Il confronto fra gli esperti informatici e matematici al fine di aggiungere in fase di modellazione elementi che potrebbero non essere estraibili dai dati. 3.2 - A cosa servono i modelli predittivi?. Vengono utilizzati per descrivere la struttura organizzativa e la distribuzione dei dati. L'obiettivo di questi modelli e quello di approfondire la conoscenza nascosta dietro ai dati. Utilizzano i loro parametri e meccanismi caratteristici per effettuare delle previsioni future che possono essere utili nei processi decisionali. Il loro obiettivo è quello di descrivere i dati per effettuare delle previsioni future. Nessuna delle altre alternative. 3.3 - A cosa servono i modelli descrittivi?. Vengono utilizzati per descrivere la struttura organizzativa e la distribuzione dei dati. L'obiettivo di questi modelli e quello di approfondire la conoscenza nascosta dietro ai dati. Vengono utilizzati per descrivere i dati per effettuare delle previsioni future. Utilizzano i loro parametri e meccanismi caratteristici per effettuare delle previsioni future che possono essere utili nei processi decisionali. Nessuna delle altre alternative. 3.4 - Quali sono i pilastri operativi su cui si basa ogni algoritmo di data mining?. Nessuna delle altre alternative. Esporazione, Valutazione, Visualizzazione. Esporazione, Modellazione, Valutazione. Selezione, Modellazione, Valutazione. 4.1 - Cosa succede durante un addestramento supervisionato?. Nessuna delle altre alternative. Vengono utilizzati dei dati che sono solo in parte etichettati. La parte restante e non etichettata viene utilizzata per la cross valtidation. I dati che si utilizzano non sono etichettati e gli algoritmi di apprendimento mirano ad estrarre la conoscenza (i parametri del modello) senza avere una specifica conoscenza del dominio del problema. Vengono utilizzati dei dati etichettati, ovvero dove si conosce il valore dell'uscita desiderata, sia essa una classe o il valore di una funzione, a fronte di un ingresso specifico. 4.2 - A cosa serve la cross validation?. A migliorare l'accuratezza dei modelli. Nessuna delle altre alternative. A migliorare la capacità di generalizzazione dei modelli. A migliorare l'adattabilità dei modelli. 4.3 - Che cosa è l'overfitting?. E' il fenomeno per cui in fase di addestramento un modello si adatta al campione osservato e perde la capacita di generalizzazione. E' il fenomeno per cui in fase di addestramento un modello allontana molto dal campione osservato e assume una grande capacita di generalizzazione. Nessuna delle altre alternative. E' il fenomeno per cui in fase di addestramento un modello si adatta al campione osservato e assume una grande capacita di generalizzazione. 4.4 - Cosa succede durante un addestramento non supervisionato?. Vengono utilizzati dei dati che sono solo in parte etichettati. La parte restante e non etichettata viene utilizzata per la cross valtidation. Vengono utilizzati dei dati etichettati, ovvero dove si conosce il valore dell'uscita desiderata, sia essa una classe o il valore di una funzione, a fronte di un ingresso specifico. Nessuna delle altre alternative. I dati che si utilizzano non sono etichettati e gli algoritmi di apprendimento mirano ad estrarre la conoscenza (i parametri del modello) senza avere una specifica conoscenza del dominio del problema. 4.5 - Quale è il dominio degli attributi categorici?. Reale. Razionale. Nessuna delle altre alternative. Intero. 5.1 - Cosa sono gli istogrammi?. Sono dei diagrammi che consentono di visualizzare la frequenza con cui si distribuiscono i dati divisi in classi (banalmente in intervalli). Si tratta di visualizzazioni grafiche che consentono di sintetizzare con 5 valori le caratteristiche di una distribuzione. Tali valori sono: minimo, massimo, mediana, primo quartile, terzo quartile. Sono dei grafici che consentono di verificare rapidamente se due variabili sono correlate (dipendenti linearmente) fra di loro. Nessuna delle altre alternative. 5.2 - Cosa sono gli scatter plot?. Nessuna delle altre alternative. Sono dei grafici che consentono di verificare rapidamente se due variabili sono correlate (dipendenti linearmente) fra di loro. Sono dei diagrammi che consentono di visualizzare la frequenza con cui si distribuiscono i dati divisi in classi (banalmente in intervalli). Si tratta di visualizzazioni grafiche che consentono di sintetizzare con 5 valori le caratteristiche di una distribuzione. Tali valori sono: minimo, massimo, mediana, primo quartile, terzo quartile. 5.3 - Cosa sono i box plot?. Sono dei grafici che consentono di verificare rapidamente se due variabili sono correlate (dipendenti linearmente) fra di loro. Si tratta di visualizzazioni grafiche che consentono di sintetizzare con 5 valori le caratteristiche di una distribuzione. Tali valori sono: minimo, massimo, mediana, primo quartile, terzo quartile. Nessuna delle altre alternative. Sono dei diagrammi che consentono di visualizzare la frequenza con cui si distribuiscono i dati divisi in classi (banalmente in intervalli). 5.4 - Che cosa è la mediana di una variabile casuale X?. E' una media pesata. E' un indice di posizione: una volta ordinati tutti i valori assunti da X, la mediana si calcola estraendo il valore del campione che divide la distribuzione in due popolazioni di eguali dimensioni. E' l'indicatore che indica quale è il valore di X che si presenta più frequentemente nei dati. E' un indicatore che sostanzialmente si calcola come il valor medio. 5.5 - Che cosa è la moda di una variabile casuale X?. E' una media pesata. E' un indicatore che sostanzialmente si calcola come il valor medio. E' l'indicatore che indica quale è il valore di X che si presenta più frequentemente nei dati. E' un indice di posizione: una volta ordinati tutti i valori assunti da X, la moda si calcola estraendo il valore del campione che divide la distribuzione in due popolazioni di eguali dimensioni. 6.1 - Quali fra i seguenti passaggi non fanno parte della pre-elaborazione dei dati?. Integrazione dei dati. Nessuna delle altre alternative. Pulizia dei dati. Riduzione dei dati. 6.2 - Quali fra i seguenti passaggi non fanno parte della pre-elaborazione dei dati?. Pulizia dei dati. Trasformazione dei dati. Gestione dei dati. Riduzione dei dati. 6.3 - Cosa si intende per riduzione della dimensionalità?. Nessuna delle altre alternative. Si parla di riduzione dimensionale quando vengono applicate delle tecniche per codificare i dati secondo degli schemi precisi al fine di ottenere una rappresentazione compressa o ridotta dei dati originali (esempio uso di Trasformate o tecniche di selezione di attributi). Si parla di riduzione dimensionale quando i dati sono sostituiti da delle rappresentazioni di più piccole dimensioni si parla di riduzione della numerosità (esempio uso di cluster o istogrammi). Si parla di riduzione dimensionale quando i dati sono sostituiti da dati sottocampionati. 7.1 - Quali fra le seguenti tecniche non si usano in fase di gestione dei missing value?. Sostituzione dei valori mancanti con il valore più probabile. Ignorare la tupla contenente valori mancanti. Nessuna delle altre alternative. Riempimento a mano dei valori mancanti. 7.2 - L'analisi degli outier può essere usata per: Identificare e gestire i missing value. Ridurre la dimensionanalità. Identificare e gestire i dati rumorosi. Nessuna delle altre alternative. 7.3 - L'analisi in regressione può essere usata per: Identificare e gestire i dati rumorosi. Fare selezione di attributi. Gestire dati provenienti da sorgenti eterogenee. Nessuna delle altre alternative. 7.4 - Con quali tecniche si gestiscono i missing value?. Nessuna delle altre alternative. Data Transformation. Data cleaning. Data Reduction. 8.1 - Quali sono i passi da effetuare nel processo di data integration?. Identificazione delle identità, Identificazione e risoluzione dei conflitti nei dati, identificazione delle ridondanze. Identificazione delle entità, Identificazione e risoluzione dei conflitti nei dati, identificazione delle ridondanze. Identificazione delle entità, identificazione dei conflitti nei dati, identificazione delle ridondanze. Nessuna delle altre alternative. 8.2 - Quale è l'obiettivo principale della fase di data integration?. Ottenenere una memorizzazione coerente per i dati derivanti da sorgenti multiple di memorizzazione. Ripulire i dati dal rumore. Nessuna delle altre alternative. Ridurre la quantità di dati da integrare. 8.3 - Per quale fase si può utilizzare l'analisi di correlazione nel processo di data integration?. Identificazione e risoluzione dei conflitti nei dati. Identificazione delle ridondanze. Nessuna delle altre alternative. Identificazione delle entità. 9.1 - Cosa si intende per riduzione dei dati lossy?. La tecnica utilizzata consente di ricostruire i dati originali da quelli ridotti senza alcuna perdita di informazione. Nessuna delle altre alternative. La tecnica utilizzata per la riduzione consente di ricostruire i dati originali solo tramite una approssimazione degli stessi. La tecnica utilizzata per la riduzione non consente di ricostruire i dati originali. 9.2 - Per cosa può essere utilizzata la principal component analysis?. Selezione di attributi. Nessuna delle altre alternative. Riduzione della dimensionalità. Integrazione dei dati. 9.3 - Cosa si intende per riduzione dei dati lossless?. La tecnica utilizzata consente di ricostruire i dati originali da quelli ridotti senza alcuna perdita di informazione. La tecnica utilizzata per la riduzione consente di ricostruire i dati originali solo tramite una approssimazione degli stessi. La tecnica utilizzata per la riduzione non consente di ricostruire i dati originali. Nessuna delle altre alternative. 9.4 - Per cosa può essere utilizzata la trasformata discreta wavelet?. Nessuna delle altre alternative. Riduzione della dimensionalità. Selezione di attributi. Integrazione dei dati. 10.1 - Quali fra le seguenti sono tecniche parametriche per la riduzione della numerosità?. Regressione lineare e modelli log-lineari. Classificatori bayesiani. KNN. Alberi di decisione. 10.2 - La selezione degli attributi è in sostanza in problema di: Regressione. Classificazione. Ottimizzazione. Nessuna delle altre alternative. 10.3 - Nella strategia di selezione in avanti, il processo di selezione di attributi in genere comincia con: Un insieme iniziale di attributi vuoto. Nessuna delle altre alternative. Un insieme iniziale contenente tutti gli attributi. Un insieme iniziale contenente un certo numero di attributi a caso. 10.4 - Nella strategia di selezione all'indietro, il processo di selezione di attributi in genere comincia con: Un insieme iniziale di attributi vuoto. Un insieme iniziale contenente tutti gli attributi. Nessuna delle altre alternative. Un insieme iniziale contenente un certo numero di attributi a caso. 10.5 - Quale fra le seguenti non è una tecnica non parametrica per la riduzione della numerosità?. Regressione lineare e modelli log-lineari. Istogrammi. Clustering. Campionamento. 10.6 - Quali delle seguenti tecniche di classficazione possono essere usate anche per la selezione degli attributi?. Reti neuronali feed forward. KNN. Alberi di decisione. Classificatori bayesiani. 11.1 - A cosa serve la normalizzazione dei dati?. Si tratta di una sorta di filtraggio per rimuovere l'eventuale rumore che affligge i dati. Nessuna delle altre alternative. Viene spesso utilizzata per discretizzare gli attributi. Viene spesso utilizzata nella fase di data transformation per fare in modo che tutti gli attributi abbiano lo stesso peso o influenza. 11.2 - Se una tecnica di discretizzazione dei dati utilizza le etichette delle classi e le informazioni da esse derivanti di che tipologia è?. Non supervisionata. Parametrica. Supervisionata. Semi-supervisionata. 11.3 - Cosa si intende per splitting?. E' fase di un processo di discretizzazione in cui si identificano ricorisivamente uno o più punti in cui suddividere gli intervalli di definizione degli attributi. E' una tecnica di discretizzazione basata sul binning. E' una tecnica di discretizzazione basata sul clustering. E' la fase di un processo di discretizzazione in cui gli attributi vengono trasformati in modo che abbiano tutti lo stesso peso o influenza. 12.1 - Quali sono le condizioni che deve soddisfare una misura di similarità fra due punti?. Simmetria; Massimo valore in 1 quando i due punti coincidono. Riflessività, non negatività, simmetria. Nessuna delle altre alternative. Riflessività, derivabilità, simmetria. 12.2 - Quali sono le condizioni che deve soddisfare una misura di distanza fra due punti?. Nessuna delle altre alternative. Riflessività, non negatività, simmetria. Riflessività, omogeneità, simmetria. Riflessività, derivabilità, simmetria. 12.3 - Quando una disanza si definisce metrica?. Quando rispetta anche la condizione di derivabilità. Quando rispetta anche la condizione di diseguaglianza triangolare. Quando rispetta anche la condizione di simmetria. Nessuna delle altre alternative. 13.1 - Nella formula della distanza di Mahalanobis che tipo di matrice è presente?. Di covarianze fra i due punti. Matrice triangolare superiore. Matrice identità. Nessuna delle altre alternative. 13.2 - La distanza Manhattan è un caso particolare di quale distanza?. Minkowski. Nessuna delle altre alternative. Lagrange-Tchebychev. Euclidea. 13.3 - Quali sono le proprietà della distanza Minkowski?. Definita positiva, asimmetrica e gode di diseguaglianza triangolare. Definita positiva, simmetrica e gode di diseguaglianza triangolare. Nessuna delle altre alternative. Definita negativa, simmetrica e gode di diseguaglianza triangolare. 14.1 - Che tipo di distanza si può utilizzare fra due punti descritti da variabili binarie asimmetriche?. Jaccard. Minkowski. SMC. Lagrange-Tchebychev. 14.2 - Che tipo di distanza si può utilizzare fra due punti descritti da variabili binarie simmetriche?. Lagrange-Tchebychev. Minkowski. SMC. Jaccard. 14.3 - Quando una variabile binaria si dice simmetrica?. Se la probabilità che ciascuno dei suoi stati categorici si verifichi è uguale e tutti gli stati assumono lo stesso peso. Se la probabilità che ciascuno dei suoi stati continui si verifichi è uguale e tutti gli stati assumono lo stesso peso. Se la probabilità che ciascuno dei suoi stati si verifichi (che assuma valore zero o uno) è uguale ed entrambi gli stati assumono lo stesso peso. Nessuna delle altre alternative. 15.1 - La formula della similarità coseno fra due vettori utilizza al suo interno?. La norma dei due vettori e il prodotto vettoriale fra i due vettori. Solo il prodotto scalare dei due vettori. Solo il prodotto vettoriale fra due vettori. La norma dei due vettori e il prodotto scalare fra i due vettori. 15.2 - E' possibile calcolare la distanza fra istanze descritte da attributi nominali?. No. Si utilizzando una distanza basata sul matching. Nessuna delle altre alternative. Si utilizzando la distanza di Minkowski. 15.3 - Che tipo di distanza si può usare fra due istanze descritti con attributi di tipologia mista?. Euclidea. Lagrange-Tchebychev. Nessuna delle altre alternative. Minkowski. 16.1 - Che tipo di apprendimento si utilizza quando si creano modelli per il clustering?. Semi-supervisionato. Parzialmente supervisionato. Non supervisionato. Supervisionato. 16.2 - Gli algoritmi di clustering si utilizzano per generare: Modelli associativi. Modelli descrittivi. Metodi di ottimizzazione. Modelli predittivi. 16.3 - Con riferimento agli algoritmi di clustering, quali delle seguenti affermazione è falsa?. Gli algoritmi di clustering possono essere utilizzati per la compressione dei dati. Non ci sono classi predefinite, l'apprendimento del modello non avviene utilizzando esempi etichettati. Gli algoritmi di clustering aspirano a trovare gruppi nei dati in modo tale che la somiglianza dei dati all'interno dello stesso gruppo sia alta e sia bassa per punti appartenenti a gruppi diversi. E' sempre noto apriori il numero di cluster da cercare. 16.4 - Un algoritmo di clustering produce cluster di alta qualità se assicura: Bassa similarità intra-cluster e alta similarità inter-cluster. Alta similarità intra-cluster e bassa similarità inter-cluster. Alta similarità intra-cluster e alta similarità inter-cluster. Bassa similarità intra-cluster e bassa similarità inter-cluster. 17.1 - L'algoritmo di clustering SOM (self organizing map) a quale categoria di algoritmi appartiene?. Nessuna delle altre alternative. Gerarchici. Density-based. Partizionali. 17.2 - Quale tipologia di algoritmi di clustering è più efficiente per l'identificazione di outlier?. Partizionali. Nessuna delle altre alternative. Density-based. Gerarchici. 17.3 - L'algoritmo di clustering AGNES a quale categoria di algoritmi appartiene?. Gerarchici. Partizionali. Nessuna delle altre alternative. Density-based. 17.4 - L'algoritmo di clustering k-means a quale categoria di algoritmi appartiene?. Gerarchici. Partizionali. Nessuna delle altre alternative. Density-based. 18.1 - Quale fra i seguenti criteri non rappresenta un criterio di convergenza dell'algoritmo di clustering k-means?. Riduzione eccessiva delle partizioni iniziali. Nessuna delle altre alternative. Differenza non significativa fra i valori assunti della funzione obiettivo in due iterazioni successive. Nessun cambiamento della matrice binaria U. 18.2 - Quali sono i punti di forza dell'algoritmo di clustering K-means?. 1) Efficienza, in quanto identifica automaticamente il numero di cluster, 2) Termina in un ottimo locale. 1) Efficienza, in quanto è lineare rispetto al numero di oggetti, 2) Termina in un ottimo locale. 1) Efficienza, in quanto identifica automaticamente il numero di cluster, 2) Termina in un ottimo globale. 1) Efficienza, in quanto è lineare rispetto al numero di oggetti, 2) Termina in un ottimo globale. 18.3 - Quali sono i principali parametri che occorre fissare per effettuare il clustering tramite l'algoritmo K-means?. Il numero K di cluster e il criterio di stop. Il numero K di punti del dataset da scartare ed il criterio di stop. Il numero K di iterazioni ed il criterio di stop. Il numero K di punti del dataset da utilizzare ed il criterio di stop. 19.1 - L'algoritmo gerarchico di clustering DIANA quale approccio segue?. Model-Based. Agglomerativo. Partizionale. Divisivo. 19.2 - L'algoritmo gerarchico di clustering AGNES quale approccio segue?. Divisivo. Model-Based. Partizionale. Agglomerativo. 19.3 - Che cosa è un dendogramma?. E' un diagramma ad albero che mostra le sequenza di fusioni fra cluster generati man mano da un algoritmo di clustering gerarchico. Nessuna delle altre alternative. E' un diagramma ad albero che mostra le sequenza di fusioni fra cluster generati man mano da un algoritmo di clustering density-based. E' un diagramma ad albero che mostra le sequenza di fusioni fra cluster generati man mano da un algoritmo di clustering partizionale. 19.4 - Negli algoritmi di clustering gerarchici con approccio agglomerativo come avviene l'inizializzazione?. Si parte con tanti cluster quanti sono gli oggetti. Si parte con un numero di cluster assegnato a priori. Si parte con un unico cluster contenente tutti gli oggetti. Si parte con un numero di cluster che dipende da un raggio e da un numero minimo di punti. 20.1 - Quali sono i principali parametri che occorre fissare per effettuare il clustering tramite l'algoritmo DBSCAN?. Nessuna delle altre alternative. Il numero Epsilon di punti del dataset da utilizzare ed il criterio di stop. Il numero Epsilon di cluster e il criterio di stop. Il numero Epsilon di iterazioni ed il criterio di stop. 20.2 - Oltre al valore del massimo raggio del vicinato, quale altro parametro deve essere specificato per l'algoritmo di clustering DBSCAN?. Il minimo numero di punti che devono essere contenuti all'interno di un vicinato. Il massimo numero di punti che devono essere contenuti all'interno di un vicinato. Il valor medio del numero di punti che devono essere contenuti all'interno di un vicinato. Nessuna delle altre alternative. 20.3 - Quando si parla di algorimo di clustering DBSCAN, cosa sono i core point?. Sono i punti la cui densità (numero di punti) e? inferiore a MinPts. Sono i punti la cui densità (numero di punti) e? superiore a MinPts. Sono i punti che si trovano ad una distanza superiore di EPS dal centroide del cluster. Sono i punti che si trovano ad una distanza inferiore di EPS dal centroide del cluster. 20.4 - Cosa rappresenta il parametro Epsilon dell'algoritmo di clustering DBSCAN?. Il minimo raggio del vicinato. Il massimo raggio del vicinato. Il valor medio del raggio del vicinato. Nessuna delle altre alternative. |