DATA MINING
![]() |
![]() |
![]() |
Title of test:![]() DATA MINING Description: Paniere di Data Mining |




New Comment |
---|
NO RECORDS |
2.1 - Che cosa è il Data Mining?. Il processo che estrae nuova conoscenza o identifica pattern/modelli nei dati mediante l'applicazione di diversi algoritmi. Il processo che estrae dati dai fenomeni mediante l'applicazione di diversi algoritmi. Il processo che estrae fenomeni dai dati mediante l'applicazione di diversi algoritmi. Nessuna delle altre alternative. 2.2 - Che cosa è un pattern?. Una espressione in un determinato linguaggio che descrive modelli descrittivi estratti da un sottoinsieme di registrazioni presenti in un data base. Una espressione in un determinato linguaggio che descrive i fatti di un sottoinsieme di registrazioni presenti in un data base. Una espressione in un determinato linguaggio che descrive modelli predittivi estratti da un sottoinsieme di registrazioni presenti in un data base. Nessuna delle altre alternative. 2.3 - Quale fra le seguenti attività non fa parte del processo di KDD. Interpretazione. Nessuna delle altre alternative. Data Mining. Selezione. 2.4 - Quale fra le seguenti attività non fa parte del processo di KDD?. Selezione. Intervista. Nessuna delle altre alternative. Data Mining. 3.1 - Cosa si intende per knowledge elicitation?. Il confronto fra gli esperti di uno specifico dominio e l'ingegnere della conoscenza al fine di aggiungere in fase di modellazione elementi che potrebbero non essere estraibili dai dati. Il confronto fra gli esperti informatici e l'ingegnere della conoscenza al fine di aggiungere in fase di modellazione elementi che potrebbero non essere estraibili dai dati. Nessuna delle altre alternative. Il confronto fra gli esperti informatici e matematici al fine di aggiungere in fase di modellazione elementi che potrebbero non essere estraibili dai dati. 3.2 - A cosa servono i modelli predittivi?. Vengono utilizzati per descrivere la struttura organizzativa e la distribuzione dei dati. L'obiettivo di questi modelli e quello di approfondire la conoscenza nascosta dietro ai dati. Utilizzano i loro parametri e meccanismi caratteristici per effettuare delle previsioni future che possono essere utili nei processi decisionali. Il loro obiettivo è quello di descrivere i dati per effettuare delle previsioni future. Nessuna delle altre alternative. 3.3 - A cosa servono i modelli descrittivi?. Vengono utilizzati per descrivere la struttura organizzativa e la distribuzione dei dati. L'obiettivo di questi modelli e quello di approfondire la conoscenza nascosta dietro ai dati. Vengono utilizzati per descrivere i dati per effettuare delle previsioni future. Utilizzano i loro parametri e meccanismi caratteristici per effettuare delle previsioni future che possono essere utili nei processi decisionali. Nessuna delle altre alternative. 3.4 - Quali sono i pilastri operativi su cui si basa ogni algoritmo di data mining?. Nessuna delle altre alternative. Esporazione, Valutazione, Visualizzazione. Esporazione, Modellazione, Valutazione. Selezione, Modellazione, Valutazione. 4.1 - Cosa succede durante un addestramento supervisionato?. Nessuna delle altre alternative. Vengono utilizzati dei dati che sono solo in parte etichettati. La parte restante e non etichettata viene utilizzata per la cross valtidation. I dati che si utilizzano non sono etichettati e gli algoritmi di apprendimento mirano ad estrarre la conoscenza (i parametri del modello) senza avere una specifica conoscenza del dominio del problema. Vengono utilizzati dei dati etichettati, ovvero dove si conosce il valore dell'uscita desiderata, sia essa una classe o il valore di una funzione, a fronte di un ingresso specifico. 4.2 - A cosa serve la cross validation?. A migliorare l'accuratezza dei modelli. Nessuna delle altre alternative. A migliorare la capacità di generalizzazione dei modelli. A migliorare l'adattabilità dei modelli. 4.3 - Che cosa è l'overfitting?. E' il fenomeno per cui in fase di addestramento un modello si adatta al campione osservato e perde la capacita di generalizzazione. E' il fenomeno per cui in fase di addestramento un modello allontana molto dal campione osservato e assume una grande capacita di generalizzazione. Nessuna delle altre alternative. E' il fenomeno per cui in fase di addestramento un modello si adatta al campione osservato e assume una grande capacita di generalizzazione. 4.4 - Cosa succede durante un addestramento non supervisionato?. Vengono utilizzati dei dati che sono solo in parte etichettati. La parte restante e non etichettata viene utilizzata per la cross valtidation. Vengono utilizzati dei dati etichettati, ovvero dove si conosce il valore dell'uscita desiderata, sia essa una classe o il valore di una funzione, a fronte di un ingresso specifico. Nessuna delle altre alternative. I dati che si utilizzano non sono etichettati e gli algoritmi di apprendimento mirano ad estrarre la conoscenza (i parametri del modello) senza avere una specifica conoscenza del dominio del problema. 4.5 - Quale è il dominio degli attributi categorici?. Reale. Razionale. Nessuna delle altre alternative. Intero. 5.1 - Cosa sono gli istogrammi?. Sono dei diagrammi che consentono di visualizzare la frequenza con cui si distribuiscono i dati divisi in classi (banalmente in intervalli). Si tratta di visualizzazioni grafiche che consentono di sintetizzare con 5 valori le caratteristiche di una distribuzione. Tali valori sono: minimo, massimo, mediana, primo quartile, terzo quartile. Sono dei grafici che consentono di verificare rapidamente se due variabili sono correlate (dipendenti linearmente) fra di loro. Nessuna delle altre alternative. 5.2 - Cosa sono gli scatter plot?. Nessuna delle altre alternative. Sono dei grafici che consentono di verificare rapidamente se due variabili sono correlate (dipendenti linearmente) fra di loro. Sono dei diagrammi che consentono di visualizzare la frequenza con cui si distribuiscono i dati divisi in classi (banalmente in intervalli). Si tratta di visualizzazioni grafiche che consentono di sintetizzare con 5 valori le caratteristiche di una distribuzione. Tali valori sono: minimo, massimo, mediana, primo quartile, terzo quartile. 5.3 - Cosa sono i box plot?. Sono dei grafici che consentono di verificare rapidamente se due variabili sono correlate (dipendenti linearmente) fra di loro. Si tratta di visualizzazioni grafiche che consentono di sintetizzare con 5 valori le caratteristiche di una distribuzione. Tali valori sono: minimo, massimo, mediana, primo quartile, terzo quartile. Nessuna delle altre alternative. Sono dei diagrammi che consentono di visualizzare la frequenza con cui si distribuiscono i dati divisi in classi (banalmente in intervalli). 5.4 - Che cosa è la mediana di una variabile casuale X?. E' una media pesata. E' un indice di posizione: una volta ordinati tutti i valori assunti da X, la mediana si calcola estraendo il valore del campione che divide la distribuzione in due popolazioni di eguali dimensioni. E' l'indicatore che indica quale è il valore di X che si presenta più frequentemente nei dati. E' un indicatore che sostanzialmente si calcola come il valor medio. 5.5 - Che cosa è la moda di una variabile casuale X?. E' una media pesata. E' un indicatore che sostanzialmente si calcola come il valor medio. E' l'indicatore che indica quale è il valore di X che si presenta più frequentemente nei dati. E' un indice di posizione: una volta ordinati tutti i valori assunti da X, la moda si calcola estraendo il valore del campione che divide la distribuzione in due popolazioni di eguali dimensioni. 6.1 - Quali fra i seguenti passaggi non fanno parte della pre-elaborazione dei dati?. Integrazione dei dati. Nessuna delle altre alternative. Pulizia dei dati. Riduzione dei dati. 6.2 - Quali fra i seguenti passaggi non fanno parte della pre-elaborazione dei dati?. Pulizia dei dati. Trasformazione dei dati. Gestione dei dati. Riduzione dei dati. 6.3 - Cosa si intende per riduzione della dimensionalità?. Nessuna delle altre alternative. Si parla di riduzione dimensionale quando vengono applicate delle tecniche per codificare i dati secondo degli schemi precisi al fine di ottenere una rappresentazione compressa o ridotta dei dati originali (esempio uso di Trasformate o tecniche di selezione di attributi). Si parla di riduzione dimensionale quando i dati sono sostituiti da delle rappresentazioni di più piccole dimensioni si parla di riduzione della numerosità (esempio uso di cluster o istogrammi). Si parla di riduzione dimensionale quando i dati sono sostituiti da dati sottocampionati. 7.1 - Quali fra le seguenti tecniche non si usano in fase di gestione dei missing value?. Sostituzione dei valori mancanti con il valore più probabile. Ignorare la tupla contenente valori mancanti. Nessuna delle altre alternative. Riempimento a mano dei valori mancanti. 7.2 - L'analisi degli outier può essere usata per: Identificare e gestire i missing value. Ridurre la dimensionanalità. Identificare e gestire i dati rumorosi. Nessuna delle altre alternative. 7.3 - L'analisi in regressione può essere usata per: Identificare e gestire i dati rumorosi. Fare selezione di attributi. Gestire dati provenienti da sorgenti eterogenee. Nessuna delle altre alternative. 7.4 - Con quali tecniche si gestiscono i missing value?. Nessuna delle altre alternative. Data Transformation. Data cleaning. Data Reduction. 8.1 - Quali sono i passi da effetuare nel processo di data integration?. Identificazione delle identità, Identificazione e risoluzione dei conflitti nei dati, identificazione delle ridondanze. Identificazione delle entità, Identificazione e risoluzione dei conflitti nei dati, identificazione delle ridondanze. Identificazione delle entità, identificazione dei conflitti nei dati, identificazione delle ridondanze. Nessuna delle altre alternative. 8.2 - Quale è l'obiettivo principale della fase di data integration?. Ottenenere una memorizzazione coerente per i dati derivanti da sorgenti multiple di memorizzazione. Ripulire i dati dal rumore. Nessuna delle altre alternative. Ridurre la quantità di dati da integrare. 8.3 - Per quale fase si può utilizzare l'analisi di correlazione nel processo di data integration?. Identificazione e risoluzione dei conflitti nei dati. Identificazione delle ridondanze. Nessuna delle altre alternative. Identificazione delle entità. 9.1 - Cosa si intende per riduzione dei dati lossy?. La tecnica utilizzata consente di ricostruire i dati originali da quelli ridotti senza alcuna perdita di informazione. Nessuna delle altre alternative. La tecnica utilizzata per la riduzione consente di ricostruire i dati originali solo tramite una approssimazione degli stessi. La tecnica utilizzata per la riduzione non consente di ricostruire i dati originali. 9.2 - Per cosa può essere utilizzata la principal component analysis?. Selezione di attributi. Nessuna delle altre alternative. Riduzione della dimensionalità. Integrazione dei dati. 9.3 - Cosa si intende per riduzione dei dati lossless?. La tecnica utilizzata consente di ricostruire i dati originali da quelli ridotti senza alcuna perdita di informazione. La tecnica utilizzata per la riduzione consente di ricostruire i dati originali solo tramite una approssimazione degli stessi. La tecnica utilizzata per la riduzione non consente di ricostruire i dati originali. Nessuna delle altre alternative. 9.4 - Per cosa può essere utilizzata la trasformata discreta wavelet?. Nessuna delle altre alternative. Riduzione della dimensionalità. Selezione di attributi. Integrazione dei dati. 10.1 - Quali fra le seguenti sono tecniche parametriche per la riduzione della numerosità?. Regressione lineare e modelli log-lineari. Classificatori bayesiani. KNN. Alberi di decisione. 10.2 - La selezione degli attributi è in sostanza in problema di: Regressione. Classificazione. Ottimizzazione. Nessuna delle altre alternative. 10.3 - Nella strategia di selezione in avanti, il processo di selezione di attributi in genere comincia con: Un insieme iniziale di attributi vuoto. Nessuna delle altre alternative. Un insieme iniziale contenente tutti gli attributi. Un insieme iniziale contenente un certo numero di attributi a caso. 10.4 - Nella strategia di selezione all'indietro, il processo di selezione di attributi in genere comincia con: Un insieme iniziale di attributi vuoto. Un insieme iniziale contenente tutti gli attributi. Nessuna delle altre alternative. Un insieme iniziale contenente un certo numero di attributi a caso. 10.5 - Quale fra le seguenti non è una tecnica non parametrica per la riduzione della numerosità?. Regressione lineare e modelli log-lineari. Istogrammi. Clustering. Campionamento. 10.6 - Quali delle seguenti tecniche di classficazione possono essere usate anche per la selezione degli attributi?. Reti neuronali feed forward. KNN. Alberi di decisione. Classificatori bayesiani. 11.1 - A cosa serve la normalizzazione dei dati?. Si tratta di una sorta di filtraggio per rimuovere l'eventuale rumore che affligge i dati. Nessuna delle altre alternative. Viene spesso utilizzata per discretizzare gli attributi. Viene spesso utilizzata nella fase di data transformation per fare in modo che tutti gli attributi abbiano lo stesso peso o influenza. 11.2 - Se una tecnica di discretizzazione dei dati utilizza le etichette delle classi e le informazioni da esse derivanti di che tipologia è?. Non supervisionata. Parametrica. Supervisionata. Semi-supervisionata. 11.3 - Cosa si intende per splitting?. E' fase di un processo di discretizzazione in cui si identificano ricorisivamente uno o più punti in cui suddividere gli intervalli di definizione degli attributi. E' una tecnica di discretizzazione basata sul binning. E' una tecnica di discretizzazione basata sul clustering. E' la fase di un processo di discretizzazione in cui gli attributi vengono trasformati in modo che abbiano tutti lo stesso peso o influenza. 12.1 - Quali sono le condizioni che deve soddisfare una misura di similarità fra due punti?. Simmetria; Massimo valore in 1 quando i due punti coincidono. Riflessività, non negatività, simmetria. Nessuna delle altre alternative. Riflessività, derivabilità, simmetria. 12.2 - Quali sono le condizioni che deve soddisfare una misura di distanza fra due punti?. Nessuna delle altre alternative. Riflessività, non negatività, simmetria. Riflessività, omogeneità, simmetria. Riflessività, derivabilità, simmetria. 12.3 - Quando una disanza si definisce metrica?. Quando rispetta anche la condizione di derivabilità. Quando rispetta anche la condizione di diseguaglianza triangolare. Quando rispetta anche la condizione di simmetria. Nessuna delle altre alternative. 13.1 - Nella formula della distanza di Mahalanobis che tipo di matrice è presente?. Di covarianze fra i due punti. Matrice triangolare superiore. Matrice identità. Nessuna delle altre alternative. 13.2 - La distanza Manhattan è un caso particolare di quale distanza?. Minkowski. Nessuna delle altre alternative. Lagrange-Tchebychev. Euclidea. 13.3 - Quali sono le proprietà della distanza Minkowski?. Definita positiva, asimmetrica e gode di diseguaglianza triangolare. Definita positiva, simmetrica e gode di diseguaglianza triangolare. Nessuna delle altre alternative. Definita negativa, simmetrica e gode di diseguaglianza triangolare. 14.1 - Che tipo di distanza si può utilizzare fra due punti descritti da variabili binarie asimmetriche?. Jaccard. Minkowski. SMC. Lagrange-Tchebychev. 14.2 - Che tipo di distanza si può utilizzare fra due punti descritti da variabili binarie simmetriche?. Lagrange-Tchebychev. Minkowski. SMC. Jaccard. 14.3 - Quando una variabile binaria si dice simmetrica?. Se la probabilità che ciascuno dei suoi stati categorici si verifichi è uguale e tutti gli stati assumono lo stesso peso. Se la probabilità che ciascuno dei suoi stati continui si verifichi è uguale e tutti gli stati assumono lo stesso peso. Se la probabilità che ciascuno dei suoi stati si verifichi (che assuma valore zero o uno) è uguale ed entrambi gli stati assumono lo stesso peso. Nessuna delle altre alternative. 15.1 - La formula della similarità coseno fra due vettori utilizza al suo interno?. La norma dei due vettori e il prodotto vettoriale fra i due vettori. Solo il prodotto scalare dei due vettori. Solo il prodotto vettoriale fra due vettori. La norma dei due vettori e il prodotto scalare fra i due vettori. 15.2 - E' possibile calcolare la distanza fra istanze descritte da attributi nominali?. No. Si utilizzando una distanza basata sul matching. Nessuna delle altre alternative. Si utilizzando la distanza di Minkowski. 15.3 - Che tipo di distanza si può usare fra due istanze descritti con attributi di tipologia mista?. Euclidea. Lagrange-Tchebychev. Nessuna delle altre alternative. Minkowski. 16.1 - Che tipo di apprendimento si utilizza quando si creano modelli per il clustering?. Semi-supervisionato. Parzialmente supervisionato. Non supervisionato. Supervisionato. 16.2 - Gli algoritmi di clustering si utilizzano per generare: Modelli associativi. Modelli descrittivi. Metodi di ottimizzazione. Modelli predittivi. 16.3 - Con riferimento agli algoritmi di clustering, quali delle seguenti affermazione è falsa?. Gli algoritmi di clustering possono essere utilizzati per la compressione dei dati. Non ci sono classi predefinite, l'apprendimento del modello non avviene utilizzando esempi etichettati. Gli algoritmi di clustering aspirano a trovare gruppi nei dati in modo tale che la somiglianza dei dati all'interno dello stesso gruppo sia alta e sia bassa per punti appartenenti a gruppi diversi. E' sempre noto apriori il numero di cluster da cercare. 16.4 - Un algoritmo di clustering produce cluster di alta qualità se assicura: Bassa similarità intra-cluster e alta similarità inter-cluster. Alta similarità intra-cluster e bassa similarità inter-cluster. Alta similarità intra-cluster e alta similarità inter-cluster. Bassa similarità intra-cluster e bassa similarità inter-cluster. 17.1 - L'algoritmo di clustering SOM (self organizing map) a quale categoria di algoritmi appartiene?. Nessuna delle altre alternative. Gerarchici. Density-based. Partizionali. 17.2 - Quale tipologia di algoritmi di clustering è più efficiente per l'identificazione di outlier?. Partizionali. Nessuna delle altre alternative. Density-based. Gerarchici. 17.3 - L'algoritmo di clustering AGNES a quale categoria di algoritmi appartiene?. Gerarchici. Partizionali. Nessuna delle altre alternative. Density-based. 17.4 - L'algoritmo di clustering k-means a quale categoria di algoritmi appartiene?. Gerarchici. Partizionali. Nessuna delle altre alternative. Density-based. 18.1 - Quale fra i seguenti criteri non rappresenta un criterio di convergenza dell'algoritmo di clustering k-means?. Riduzione eccessiva delle partizioni iniziali. Nessuna delle altre alternative. Differenza non significativa fra i valori assunti della funzione obiettivo in due iterazioni successive. Nessun cambiamento della matrice binaria U. 18.2 - Quali sono i punti di forza dell'algoritmo di clustering K-means?. 1) Efficienza, in quanto identifica automaticamente il numero di cluster, 2) Termina in un ottimo locale. 1) Efficienza, in quanto è lineare rispetto al numero di oggetti, 2) Termina in un ottimo locale. 1) Efficienza, in quanto identifica automaticamente il numero di cluster, 2) Termina in un ottimo globale. 1) Efficienza, in quanto è lineare rispetto al numero di oggetti, 2) Termina in un ottimo globale. 18.3 - Quali sono i principali parametri che occorre fissare per effettuare il clustering tramite l'algoritmo K-means?. Il numero K di cluster e il criterio di stop. Il numero K di punti del dataset da scartare ed il criterio di stop. Il numero K di iterazioni ed il criterio di stop. Il numero K di punti del dataset da utilizzare ed il criterio di stop. 19.1 - L'algoritmo gerarchico di clustering DIANA quale approccio segue?. Model-Based. Agglomerativo. Partizionale. Divisivo. 19.2 - L'algoritmo gerarchico di clustering AGNES quale approccio segue?. Divisivo. Model-Based. Partizionale. Agglomerativo. 19.3 - Che cosa è un dendogramma?. E' un diagramma ad albero che mostra le sequenza di fusioni fra cluster generati man mano da un algoritmo di clustering gerarchico. Nessuna delle altre alternative. E' un diagramma ad albero che mostra le sequenza di fusioni fra cluster generati man mano da un algoritmo di clustering density-based. E' un diagramma ad albero che mostra le sequenza di fusioni fra cluster generati man mano da un algoritmo di clustering partizionale. 19.4 - Negli algoritmi di clustering gerarchici con approccio agglomerativo come avviene l'inizializzazione?. Si parte con tanti cluster quanti sono gli oggetti. Si parte con un numero di cluster assegnato a priori. Si parte con un unico cluster contenente tutti gli oggetti. Si parte con un numero di cluster che dipende da un raggio e da un numero minimo di punti. 20.1 - Quali sono i principali parametri che occorre fissare per effettuare il clustering tramite l'algoritmo DBSCAN?. Nessuna delle altre alternative. Il numero Epsilon di punti del dataset da utilizzare ed il criterio di stop. Il numero Epsilon di cluster e il criterio di stop. Il numero Epsilon di iterazioni ed il criterio di stop. 20.2 - Oltre al valore del massimo raggio del vicinato, quale altro parametro deve essere specificato per l'algoritmo di clustering DBSCAN?. Il minimo numero di punti che devono essere contenuti all'interno di un vicinato. Il massimo numero di punti che devono essere contenuti all'interno di un vicinato. Il valor medio del numero di punti che devono essere contenuti all'interno di un vicinato. Nessuna delle altre alternative. 20.3 - Quando si parla di algorimo di clustering DBSCAN, cosa sono i core point?. Sono i punti la cui densità (numero di punti) e? inferiore a MinPts. Sono i punti la cui densità (numero di punti) e? superiore a MinPts. Sono i punti che si trovano ad una distanza superiore di EPS dal centroide del cluster. Sono i punti che si trovano ad una distanza inferiore di EPS dal centroide del cluster. 20.4 - Cosa rappresenta il parametro Epsilon dell'algoritmo di clustering DBSCAN?. Il minimo raggio del vicinato. Il massimo raggio del vicinato. Il valor medio del raggio del vicinato. Nessuna delle altre alternative. 21.1 - Che cosa è il supporto di una regola associativa?. E' la frequenza delle transazioni nel database che verificano la regola rispetto a quelle che ne verificano l'antecedente. E' la frequenza relativa delle transazioni nel database che verificano la regola. Nessuna delle altre alternative. E' la frequenza delle transazioni nel database che verificano l'antecedente della regola. 21.2 - Che cosa è la confidenza di una regola associativa?. E' la frequenza delle transazioni nel database che verificano l'antecedente della regola. Nessuna delle altre alternative. E' la frequenza relativa delle transazioni nel database che verificano la regola. E' la frequenza delle transazioni nel database che verificano la regola rispetto a quelle che ne verificano l'antecedente. 21.3 - Quando una regola associativa si definisce forte?. Si definisce forte, una regola associativa che soddisfa un supporto massimo prefissato ed una confidenza minima prefissata. Si definisce forte, una regola associativa che soddisfa un supporto minimo prefissato ed una confidenza minima prefissata. Nessuna delle altre alternative. Si definisce forte, una regola associativa che soddisfa un supporto minimo prefissato ed una confidenza massima prefissata. 21.4 - La generazione di regole associative avviene utilizzando che tipologia di apprendimento?. Semi supervisionato. Semi specializzato. Supervisionato. Non supervisionato. 21.5 - Che cosa è una regola associativa?. E' è un'implicazione della forma X->Y, dove X e Y sono degli itemset. E' è un'implicazione della forma X->Y, dove X e Y sono degli item. E' è un'implicazione della forma X->Y, dove X è un item ed Y è un itemset. E' è un'implicazione della forma X->Y, dove X è un itemset ed Y è un item. 21.6 - Cosa è la Market Basket Analysis?. Una analisi ha l'obiettivo di studiare la regolarità, all'interno delle transazioni registrate, nelle vendite dei supermercati. Nessuna delle altre alternative. Una analisi ha l'obiettivo di studiare come assumere i dipendenti nelle pubbliche amministrazioni americane. Una analisi ha l'obiettivo di studiare la regolarità, all'interno delle transazioni registrate, nel contesto del mercato giocatori di pallacanestro. 21.7 - Che cosa è un itemset?. Un insieme di transazioni. Un insieme di regole. Un insieme di articoli. Nessuna delle altre alternative. 22.1 - A cosa serve l'algoritmo APRIORI?. Nessuna delle altre alternative. Per generare regole di classificazione. Per generare regole associative. Per generare regole di clustering. 22.2 - Quale è l'idea di base dell'algoritmo APRIORI?. L'algoritmo Apriori affronta la fase di generazione degli itemset frequenti per approssimazioni ricorsive, a partire dagli itemset con il numero massimo di elementi. L'algoritmo Apriori affronta la fase di generazione degli itemset frequenti per approssimazioni successive, a partire dagli itemset con un solo elemento. L'algoritmo Apriori affronta la fase di generazione degli itemset frequenti per approssimazioni ricorsive, a partire dagli itemset con un solo elemento. L'algoritmo Apriori affronta la fase di generazione degli itemset frequenti per approssimazioni successive, a partire dagli itemset con il numero massimo di elementi. 22.3 - Che cosa è un itemset frequente?. Un itemset con confidenza maggiore di un valore stabilito. Un itemset con confidenza minore di un valore stabilito. Un itemset con supporto minore di un valore stabilito. Un itemset con supporto maggiore di un valore stabilito. 22.4 - Per la generazione di regole associative, in genere è necessario generare come prima cosa: Gli item frequenti. Gli itemset frequenti. I conseguenti frequenti. Le regole frequenti. 23.1 - Quali sono i parametri più importanti da fissare per l'algoritmo APRIORI?. Valore del supporto minimo, valore della confidenza minima. Valore del supporto minimo, valore della confidenza massima. Valore del supporto massimo valore della confidenza massima. Valore del supporto massimo valore della confidenza minima. 23.2 - Che approccio usa APRIORI per la generazione di regole associative?. L'algoritmo Apriori usa un approccio per livelli per generare le regole associative. Ogni livello corrisponde al numero di item che appartengono al conseguente. L'algoritmo Apriori usa un approccio per livelli per generare le regole associative. Ogni livello corrisponde al numero di item che appartengono all'antecedente. L'algoritmo Apriori usa un approccio ricorsivo per generare le regole associative. Ogni livello di ricorsione corrisponde al numero di item che appartengono al conseguente. L'algoritmo Apriori usa un approccio ricorsivo per generare le regole associative. Ogni livello di ricorsione corrisponde al numero di item che appartengono all'antecedente. 23.3 - E' possibile aumentare l'efficienza dell'algoritmo APRIORI?. Nessuna delle altre alternative. Si, ma solo riducendo il numero di candidati da considerare, usando tecniche di indirizzamento e partizionamento. No. Si, ma solo riducendo la dimensione della base di dati da considerare nei passaggi successivi. 24.1 - Con riferimento all'algoritmo FP-growth, quante scansioni del data base vengono effettuate per la generazione dell'FP-tree?. Due. Tante quanti sono gli item frequenti. Una sola. Non serve scansionare il data base. 24.2 - L'algoritmo FP-growth consente di evitare cosa?. La generazione degli itemset frequent. La generazione degli item frequenti candidati. La generazione degli itemset frequenti candidati. La generazione degli item frequenti. 24.3 - Con riferimento all'algoritmo FP-growth, cosa viene fatto durante la seconda scansione nella fase di generazione dell'FP-tree?. Si crea effettivamente l'albero. 1), Si identificano tutti gli itemset frequenti dal database, 2) Si crea una lista L degli itemset frequenti ordinati secondo il loro supporto o frequenza. 1), Si identificano tutti gli itemset frequenti dal database, 2) Si crea una lista L degli itemset frequenti ordinati secondo la loro confidenza. 1), Si identificano tutti gli 1-temset frequenti dal database, 2) Si crea una lista L degli 1-itemset frequenti ordinati secondo il loro supporto o frequenza. 24.4 - Con riferimento all'algoritmo FP-growth, cosa viene fatto nei primi due passi della generazione dell'FP-tree?. 1), Si identificano tutti gli itemset frequenti dal database, 2) Si crea una lista L degli itemset frequenti ordinati secondo la loro confidenza. 1), Si identificano tutti gli 1-temset frequenti dal database, 2) Si crea una lista L degli 1-itemset frequenti ordinati secondo il loro supporto o frequenza. 1), Si identificano tutti gli 1-temset frequenti dal database, 2) Si crea una lista L degli 1-itemset frequenti ordinati secondo la loro confidenza. 1), Si identificano tutti gli itemset frequenti dal database, 2) Si crea una lista L degli itemset frequenti ordinati secondo il loro supporto o frequenza. 24.5 - A serve l'FP-tree?. A compriremere il database considerando solo gli item poco frequenti. A compriremere il database considerando solo gli item frequenti. A compriremere il database considerando solo gli itemset frequenti. A compriremere il database considerando solo gli itemset poco frequenti. 25.1 - Con riferimento all'algoritmo FP-growth, che filosofia si utilizza per la generazione degli itemset frequenti?. Nessuna delle altre alternative. Si segue un approccio random: si parte ad esplorare l'albero dei pattern frequenti a caso. Si segue un approccio top-down: si parte ad esplorare l'albero dei pattern frequenti a partire dalla radice verso le foglie. Si segue un approccio bottom-up: si parte ad esplorare l'albero dei pattern frequenti a partire dalle foglie verso la radice. 25.2 - Quale potrebbe essere uno svantaggio dell'algoritmo FP-growth?. L'FP-tree potrebbe essere computazionalmente difficile da generare. E' più lento di APRIORI. Nessuna delle altre alternative. Bisogna generare itemset frequenti candidati. 25.3 - Quale potrebbe essere uno svantaggio dell'algoritmo FP-growth?. E' più lento di APRIORI. Bisogna generare itemset frequenti candidati. L'FP-tree potrebbe non entrare in memoria. Nessuna delle altre alternative. 25.4 - In quale fase dell'algoritmo FP-growth si genera il conditional pattern tree? -- DA VERIFICARE --. Nella fase di generazione dell'FP-tree. Nella fase di estrazione degli itemset frequenti. Nessuna delle altre alternative. Nella fase di estrazione degli itemset frequenti candidati. 26.1 - Cosa si intende per classificazione binaria?. Gli attributi per la descrizione degli oggetti sono tutti binari. Nessuna delle altre alternative. Gli attributi per la descrizione degli oggetti sono in parte binari. Si considerano solo due classi. 26.2 - A che categoria di classificatori appartiene il KNN?. Nessuna delle altre alternative. Classificatori lineari generalizzati. Bayesiani. Lazy. 26.3 - Che tipo di apprendimento si utilizza quando si creano modelli di classificazione? -- DA VERIFICARE --. Supervisionato. Nessuna delle altre alternative. Non supervisionato. Semi supervisionato. 26.4 - Come sono i dataset che in genere si utilizzano nel contesto della classificazione? -- DA VERIFICARE --. Senza valori mancanti. Etichettati. Filtrati. Non etichettati. 26.5 - Esistono differenze fra problemi di clustering e di classificazione? -- DA VERIFICARE --. Solo a volte. Si. Dipende. No. 27.1 - Su cosa si base il calcolo dell'information gain?. Sulla distanza coseno. Sulla distanza euclidea. Sulla similarità. Sull'entropia. 27.2 - Che tipo di problema risolvono gli alberi di decisione?. Clustering. Nessuna delle altre alternative. Classificazione. Generazione di regole associative tramite APRIORI. 27.3 - Cosa rappresenta ogni nodo interno in un albero di decisione?. Un possibile valore di un attributo. Un attributo. Il valore predetto per la classe. Nessuna delle altre alternative. 27.4 - Cosa rappresenta una foglia in un albero di decisione?. Nessuna delle altre alternative. Un attributo. Un possibile valore di un attributo. Il valore predetto per la classe. 27.5 - Con riferimento agli alberi di decisione, che filosofia si utilizza per la generazione della classe stimata?. Nessuna delle altre alternative. Si segue un approccio random: si parte ad esplorare l'albero a caso. Si segue un approccio bottom-up: si parte ad esplorare l'albero a partire dalle foglie verso la radice. Si segue un approccio top-down: si parte ad esplorare l'albero dalla radice verso le foglie. 27.6 - Nella generazione degli alberi di decisione, l'information gain in genere viene usato come misura di cosa?. Misura di rilevanza. Misura di accuratezza. Nessuna delle altre alternative. Misura di similarità. 28.1 - A che categoria di classificatori appartiene il classificatore C45?. Classificatori lineari generalizzati. Alberi di decisione. Lazy. Bayesiani. 28.2 - A che categoria di classificatori appartiene il classificatore ID3?. Bayesiani. Lazy. Nessuna delle altre alternative. Classificatori lineari generalizzati. 28.3 - Con che tipo di attributi lavora il classificatore ID3?. Nessuna delle altre alternative. Nominali. Stringhe. Numerici. 28.4 - Che cosa si usa come misura di rilevanza degli attributi nell'algoritmo ID3?. Nessuna delle altre alternative. Distanza euclidea. Information gain. Distanza coseno. 28.5 - Quale fra le seguenti condizioni di terminazione della ricorsione dell'algoritmo ID3 non è corretta?. Nessuna delle altre alternative. I campioni sono tutti della stessa classe. Gli attributi sono vuoti. Non ci sono più campioni nello specifico nodo. 28.6 - Che tipo di attributi può gestire senza pre-elaborazione il classificatore C45 rispeto al classificatore ID3?. Numerici. Nominali. Nessuna delle altre alternative. Stringhe. 28.7 - Dopo la generazione di un albero con l'algoritmo C45, che ulteriore passo può essere effettuato per ridurre la possibilità di overtraining?. Estensione del numero di foglie. Estensione del numero di nodi. Divisione in sotto alberi. Potatura. 29.1 - A che categoria di classificatori appartiene il classificatore CART?. Lazy. Classificatori lineari generalizzati. Bayesiani. Alberi di decisione. 29.2 - Cosa utilizza l'algoritmo CART per misurare l'impurità di un database o di un generico insieme di transazioni. La distanza coseno. Il gain ratio. L'indice di Gini. L'information gain. 29.3 - Quale misura di rilevanza è stata introdutta in una versione migliorata dell'algoritmo C45?. L'indice di Gini. Il gain ratio. L'information gain. La distanza coseno. 30.1 - I modelli bayesiani si usano per risolvere quali tipi di problemi?. Generazione di regole associative. Classificazione. Nessuna delle altre alternative. Clustering. 30.2 - Quale è l'assunsione su cui si basano i classificatori Naive Bayes?. La correlazione fra gli attributi che descrivono un oggetto quando la classe è nota. La correlazione fra gli attributi che descrivono un oggetto quando la classe non è nota. L'indipendenza fra gli attributi che descrivono un oggetto quando la classe non ènota. L'indipendenza fra gli attributi che descrivono un oggetto quando la classe è nota. 30.3 - Su cosa si basano i classificatori bayesiani?. Teoria della probabilità. Alberi di decisione. Reti neurali. Approccio lazy. 31.1 - Come avviene la classificazione di un nuovo punto quando si utilizza il classificatore KNN?. Si considerano tutti il punto del training set più vicino al punto da classificare e si sceglie la classe associata a tale punto. Nessuna delle altre alternative. Si costruisce il modello dove i parametri sono ottenuti con il metodo dei minimi quadrati e si stima con i parametri ottenuti la classe. Si considerano tutti i K punti del training set vicini al punto da classificare e si sceglie a caso la classe che ricorre maggiormente fra i vicini. 31.2 - Quando si usano i classificatori lazy che tipo di apprendimento si usa per la costruzione del modello?. Nessuna delle altre alternative. Supervisionato. Semi supervisionato. Non supervisionato. 31.3 - Quali fra i seguenti elementi non deve mai mancare quando si utilizza un classificatore KNN?. Il numero K di vicini. La metrica scelta per il calcolo della distanza. Tutti e tre gli elementi specifici nelle altre alternative. Il training set. 31.4 - In quali classificatori si può usare il majoring voting pesato?. Nessuna delle altre alternative. Classificatori bayesiani. KNN. Alberi di decisione. 31.5 - Cosa è il rote classifier?. Nessuna delle altre alternative. Il più semplice classificatore lazy. Il più semplice classificatore bayesiano. Il più semplice classificatore neurale. 32.1 - In quali tipi di classificatori si può utilizzare il FOIL_gain?. Classificatori bayesiani. Classificatori a regole. Classificatori Lazy. Alberi di decisione. 32.2 - Con riferimento ai classificatori basati su regole, cosa è la copertura di una regola?. Frazione delle istanze che hanno portato alla generazione della regola. Frazione delle istanze nel database che soddisfano l'antecedente. Frazione delle istanze nel database che soddisfano antecedente e conseguente rispetto alla copertura. Nessuna delle altre alternative. 32.3 - Con riferimento ai classificatori basati su regole, cosa è l'accuratezza di una regola?. Frazione delle istanze nel database che soddisfano antecedente e conseguente rispetto alla copertura. Nessuna delle altre alternative. Frazione delle istanze nel database che soddisfano l'antecedente. Frazione delle istanze che hanno portato alla generazione della regola. 32.4 - Con riferimento ai classificatori basati su regole, cosa sono le regole mutuamente esclusive?. Nessuna delle altre alternative. Un insieme di regole R e? detto mutuamente esclusivo se esiste una regola per ogni combinazione di valori degli attributi. Un insieme di regole R e? detto mutuamente esclusivo se nessuna coppia di regole può essere attivata da più di due istanze. Un insieme di regole R e? detto mutuamente esclusivo se nessuna coppia di regole può essere attivata dalla stessa istanza. 32.5 - Con riferimento ai classificatori basati su regole, cosa sono le regole esaustive?. Un insieme di regole R ha una copertura esaustiva se esiste una regola per ogni combinazione di valori degli attributi. Un insieme di regole R ha una copertura esaustiva se nessuna coppia di regole può essere attivata dalla stessa istanza. Nessuna delle altre alternative. Un insieme di regole R ha una copertura esaustiva se nessuna coppia di regole può essere attivata da più di due istanze. 32.6 - A che categoria di classificatori appartiene l'algoritmo RIPPER?. Classificatori a regole. Alberi di decisione. Classificatori bayesiani. Classificatori Lazy. 33.1 - Cosa deve simulare un percettrone?. Il funzionamento di una rete neurale. Il funzionamento del cervello. Il funzionamento di un assone. Il funzionamento di un neurone. 33.2 - Su cosa si base l'algoritmo di classificazione RIPPER?. Sequential covering. Alberi di decisione. Gain ratio. Reti neurali. 33.3 - Che cosa è il percettrone?. L'elemento base degli alberi di decisione. L'elemento base dell'FP-growth. L'elemento base per il clustering. L'elemento base delle reti neurali artificiali. 33.4 - Cosa significa addestarre un percettrone?. identificare il numero di neuroni. Identificare il numero di pesi. Identificare il numero di ingressi. Nessuna delle altre alternative. 33.5 - Di che tipo è l'uscita del percettrone?. Binaria. Intera. Reale. Ordinale. 33.6 - Come si chiama l'algoritmo di apprendimento dei parametri di un percettrone?. Deltra rule. Back propagation. Sequential covering. Nessuna delle altre alternative. 33.7 - Quali sono i parametri caratteristici di un rete neurale artificiale?. L'insieme dei neuroni, l'insieme dei pesi associati ai collegamenti, l'insieme delle soglie o dei livelli di attivazione. Nessuna delle altre alternative. L'insieme dei neuroni, l'insieme dei pesi associati ai neuroni, l'insieme delle soglie o dei livelli di attivazione. L'insieme dei neuroni, l'insieme dei pesi associati ai neuroni, l'insieme delle uscite. 34.1 - Come avviene la generazione dei pesi iniziali nell'algoritmo backpropagation?. Con la propagazione all'indietro dell'errore. Nessuna delle altre alternative. Con il metodo dei minimi quadrati. A caso. 34.2 - Quale fra le seguenti caratteristiche non è tipica di una rete neurale feedforward?. Ogni unità è collegata solo a quella dello strato successivo. Presenza di pesi sulle connessioni. Presenza di funzioni soglia. Presenza di feedback. 34.3 - Quale fra le seguenti caratteristiche non è tipica di una rete neurale feedforward?. Ogni unità è collegata solo a quella dello strato successivo. Presenza di funzioni soglia. Presenza di stato interno. Presenza di pesi sulle connessioni. 34.4 - Quante uscite in genere si usano nelle reti neurali feedforward quando si vuole risolvere un problema di classificazione con C classi?. C. Dipende dal numero di campioni disponibili per ciascuna classe. Due. Dipende dal numero di istanze del training set. 34.5 - Che problemi possono essere risolti con le reti neurali feedforward?. Clustering. Ottimizzazione. Generazione di regole associative. Classificazione. 34.6 - Come si chiama l'algoritmo di apprendimento delle reti feedforward?. Back propagation. Sequential covering. Nessuna delle altre alternative. Deltra rule. 35.1 - Quale è la formula per la Recall, utilizzata come metrica per valutare la bontà di un classificatore binari?. R = TP/(TP+FP). Nessuna delle altre alternative. R = TP/(TP+FN). R= FP/(FP+TN). 35.2 - Quale metrica è più consigliata quando si vuole confrontare la bontà di due o più modelli per la classificazione binaria?. Accuratezza. Precisione. Recall. AUC. 35.3 - Quale è l'area associata alla curva ROC di un classificatore random?. 0. 0,75. Nessuna delle altre alternative. 1. 35.4 - Cosa viene riportato sugli assi di una curva ROC?. Nessuna delle altre alternative. TNR, FPR. TPR, TNR. TPR, FPR. 35.5 - Quando è sconsigliato utilizare l'accuratezza come metrica per valutare la bontà di un classificatore?. Quando si ha un problema multiclasse e tutte le classi sono di interesse. Nessuna delle altre alternative. Quando si ha un problema binario, le due classi sono bilanciate e interessanti. Se le classi sono sbilanciate. 35.6 - Quale strumento può essere utilizzato per valuare la bontà di un classificatore binario?. Matrice di Covarianza. Matrice di correlazione. Matrice di confusione. Nessuna delle altre alternative. 35.7 - Quale è la formula per la Precisione, utilizzata come metrica per valutare la bontà di un classificatore binari?. P = TP/(TP+FN). P= FP/(FP+TN). P = TP/(TP+FP). Nessuna delle altre alternative. |