top 29 data engineer interview questions
Elenco delle domande e risposte al colloquio con i data engineer più frequenti per aiutarti a prepararti per il prossimo colloquio:
Oggi, l'ingegneria dei dati è il campo più ricercato dopo lo sviluppo del software ed è diventata una delle opzioni di lavoro in più rapida crescita al mondo. Gli intervistatori vogliono i migliori ingegneri di dati per il loro team ed è per questo che tendono a intervistare i candidati a fondo. Cercano determinate abilità e conoscenze. Quindi, devi essere preparato di conseguenza per soddisfare le loro aspettative.
Cosa imparerai:
- Responsabilità di un ingegnere di dati
- Competenze di un ingegnere di dati
- Domande frequenti sul colloquio con l'ingegnere dei dati
- Conclusione
Responsabilità di un ingegnere di dati
Le responsabilità includono:
- Gestire e vigilare sui dati all'interno dell'azienda.
- Mantenere e gestire il sistema di origine dei dati e le aree di staging.
- Semplifica la pulizia dei dati insieme alla successiva creazione e miglioramento della riduplicazione dei dati.
- Rendi disponibile ed esegui sia la trasformazione dei dati che il processo ETL.
- Estrazione e creazione di query di dati ad-hoc.
Competenze di un ingegnere di dati
Con le qualifiche, hai bisogno anche di determinate abilità. Entrambi sono fondamentali quando ti prepari per la posizione di ingegnere dei dati. Di seguito elenchiamo le 5 principali competenze, senza un ordine particolare, di cui avrai bisogno per diventare un ingegnere di dati di successo.
- Competenze nella visualizzazione dei dati.
- Python e SQL.
- Conoscenza della modellazione dei dati sia per Big Data che per Data Warehousing
- Matematica
- Know-how in ETL
- Esperienza nello spazio Big Data
Quindi, devi lavorare per migliorare questi set di abilità prima di iniziare a prepararti per il colloquio. E quando avrai affinato le tue capacità, ecco alcune domande per il colloquio che puoi preparare per far sì che gli intervistatori ti notino e assumano anche te.
Domande frequenti sul colloquio con l'ingegnere dei dati
Domande generali di intervista
D # 1) Perché hai studiato ingegneria dei dati?
Risposta: Questa domanda mira a conoscere la tua istruzione, esperienza lavorativa e background. Potrebbe essere stata una scelta naturale per la continuazione della tua laurea in Sistemi Informativi o Informatica. O forse hai lavorato in un campo simile o potresti passare da un'area di lavoro completamente diversa.
Qualunque sia la tua storia, non trattenerti o evitarlo. E mentre condividi, continua a mettere in evidenza le abilità che hai acquisito lungo il percorso e l'eccellente lavoro che hai svolto.
Tuttavia, non iniziare a raccontare storie. Inizia un po 'con il tuo background formativo e poi raggiungi la parte in cui sapevi di voler diventare un ingegnere dei dati. E poi passa a come arrivi qui.
D # 2) Qual è la cosa più difficile dell'essere un ingegnere dei dati secondo te?
Risposta: Devi rispondere a questa domanda onestamente. Non tutti gli aspetti di tutti i lavori sono facili e il tuo intervistatore lo sa. Lo scopo di questa domanda non è individuare la tua debolezza, ma sapere come affronti le cose che trovi difficili da affrontare.
Puoi dire qualcosa come: 'In qualità di ingegnere dei dati, trovo difficile completare la richiesta di tutti i reparti di un'azienda in cui la maggior parte di loro presenta spesso richieste contrastanti. Quindi, spesso trovo difficile bilanciarli di conseguenza.
Ma mi ha offerto una preziosa visione del funzionamento dei reparti e del ruolo che svolgono nella struttura complessiva dell'azienda '. E questo è solo un esempio. Puoi e dovresti esprimere il tuo punto di vista.
D # 3) Raccontaci un incidente in cui avresti dovuto raccogliere dati da varie fonti ma hai riscontrato problemi imprevisti e come l'hai risolto?
Risposta: Questa domanda è un'opportunità per te per dimostrare le tue capacità di risoluzione dei problemi e come ti adatti ai cambiamenti improvvisi del piano. La domanda potrebbe essere affrontata in modo generale o specifico con il contesto dell'ingegneria dei dati. Se non hai vissuto un'esperienza del genere, puoi fornire una risposta ipotetica.
Ecco una risposta di esempio: 'Nella mia precedente azienda in franchising, io e il mio team dovevamo raccogliere dati da varie posizioni e sistemi. Ma uno dei franchise ha cambiato il proprio sistema senza darci alcun preavviso. Ciò ha comportato una manciata di problemi per la raccolta e l'elaborazione dei dati.
Per risolvere questo problema, abbiamo dovuto prima trovare una soluzione rapida a breve termine per inserire i dati essenziali nel sistema dell'azienda. Dopo di che, abbiamo sviluppato una soluzione a lungo termine per evitare che tali problemi si ripetano '.
D # 4) In che modo il lavoro di un data engineer è diverso da quello di un data architect?
Risposta: Questa domanda ha lo scopo di verificare se si comprende che ci sono differenze all'interno del team di un data warehouse. Non puoi sbagliare con la risposta. Le responsabilità di entrambi si sovrappongono o variano a seconda delle esigenze del reparto di manutenzione del database o dell'azienda.
Si può dire che “in base alla mia esperienza, la differenza tra i ruoli di un data engineer e di un data architect varia da azienda ad azienda. Sebbene lavorino a stretto contatto, ci sono differenze nelle loro responsabilità generali.
La gestione dei server e la costruzione dell'architettura del sistema dati di un'azienda è responsabilità di un architetto dei dati. E il lavoro di un ingegnere dei dati è testare e mantenere quell'architettura. Inoltre, noi ingegneri dei dati ci assicuriamo che i dati messi a disposizione degli analisti siano di alta qualità e affidabili '.
Domande di intervista tecnica
D # 5) Quali sono le quattro V dei Big Data?
(Immagine fonte )
Risposta:
Le quattro V dei Big Data sono:
- La prima V è Velocità che si riferisce alla velocità con cui i Big Data vengono generati nel tempo. Quindi, può essere considerato come un'analisi dei dati.
- La seconda V è la Varietà di varie forme di Big Data, sia all'interno di immagini, file di registro, file multimediali e registrazioni vocali.
- La terza V è la Volume dei dati. Potrebbe essere il numero di utenti, il numero di tabelle, la dimensione dei dati o il numero di record.
- La quarta V è Veridicità legati all'incertezza o certezza dei dati. In altri termini, decide quanto puoi essere sicuro della precisione dei dati.
D # 6) In che modo i dati strutturati sono diversi dai dati non strutturati?
Risposta: la tabella seguente spiega le differenze:
Dati strutturati | Dati non strutturati | |
---|---|---|
7) | I dati aggregati sono contenuti in un'unica dimensione. | I dati vengono suddivisi in diverse tabelle delle dimensioni. |
1) | Può essere archiviato in MS Access, Oracle, SQL Server e altri sistemi di database tradizionali simili. | Non può essere archiviato in un sistema di database tradizionale. |
Due) | Può essere memorizzato in diverse colonne e righe. | Non può essere memorizzato in righe e colonne. |
3) | Un esempio di dati strutturati sono le transazioni di applicazioni online. | Esempi di dati non strutturati sono Tweet, ricerche Google, Mi piace di Facebook, ecc. |
4) | Può essere facilmente definito all'interno del modello dati. | Non può essere definito in base al modello di dati. |
5) | Viene fornito con dimensioni e contenuto fissi. | È disponibile in varie dimensioni e contenuti. |
D # 7) Quali strumenti ETL conosci?
Risposta: Assegna un nome a tutti gli strumenti ETL con cui hai lavorato. Puoi dire: 'Ho lavorato con SAS Data Management, IBM Infosphere e SAP Data Services. Ma il mio preferito è PowerCenter di Informatica. È efficiente, ha un rendimento estremamente elevato ed è flessibile. In breve, ha tutte le proprietà importanti di un buon strumento ETL.
Gestiscono senza problemi le operazioni sui dati aziendali e garantiscono l'accesso ai dati anche in caso di cambiamenti in atto nell'azienda o nella sua struttura '. Assicurati di parlare solo di quelli con cui hai lavorato e di quelli con cui ti piace lavorare. Oppure, potrebbe riempire la tua intervista più tardi.
D # 8) Parlaci degli schemi di progettazione della modellazione dei dati.
Risposta: La modellazione dei dati include due tipi di schemi di progettazione.
Sono spiegati come segue:
- Il primo è il file Programma Star , che è diviso in due parti: la tabella dei fatti e la tabella delle dimensioni. Qui, entrambe le tabelle sono collegate. Lo schema a stella è lo stile di schema di data mart più semplice ed è anche il più ampiamente utilizzato. È chiamato così perché la sua struttura ricorda una stella.
- Il secondo è il file Schema del fiocco di neve che è l'estensione dello schema a stella. Aggiunge dimensioni aggiuntive ed è chiamato fiocco di neve perché la sua struttura ricorda quella di un fiocco di neve.
D # 9) Qual è la differenza tra lo schema Star e lo schema Snowflake?
(Immagine fonte )
Risposta: la tabella seguente spiega le differenze:
Star Schedule | Schema del fiocco di neve | |
---|---|---|
1) | La tabella delle dimensioni contiene le gerarchie per le dimensioni. | Esistono tabelle separate per le gerarchie. |
Due) | Qui le tabelle delle dimensioni circondano una tabella dei fatti. | Le tabelle delle dimensioni circondano una tabella dei fatti e poi sono ulteriormente circondate dalle tabelle delle dimensioni. |
3) | Una tabella dei fatti e qualsiasi tabella delle dimensioni sono collegate da un solo join. | Per recuperare i dati, sono necessari molti join. |
4) | Viene fornito con un semplice design DB. | Ha un design DB complesso. |
5) | Funziona bene anche con query e strutture dati denormalizzate. | Funziona solo con la struttura dati normalizzata. |
6) | Ridondanza dei dati: alta. | Ridondanza dei dati: molto bassa. |
8) | Elaborazione del cubo più veloce. | L'unione complessa rallenta l'elaborazione del cubo. |
D # 10) Qual è la differenza tra il data warehouse e il database operativo?
Risposta: la tabella seguente spiega le differenze:
Data Warehouse | Database operativo | |
---|---|---|
7) | Supporta una manciata di OLTP come client simultanei. | Supporta molti client simultanei. |
1) | Questi sono progettati per supportare l'elaborazione analitica di volumi elevati. | Questi supportano l'elaborazione delle transazioni di volumi elevati. |
Due) | I dati storici influiscono su un data warehouse. | I dati correnti influiscono sul database operativo. |
3) | I nuovi dati non volatili vengono aggiunti regolarmente ma vengono modificati raramente. | I dati vengono aggiornati regolarmente in base alle necessità. |
4) | È progettato per analizzare le misure aziendali per attributi, aree tematiche e categorie. | È progettato per l'elaborazione in tempo reale e i rapporti commerciali. |
5) | Ottimizzato per carichi pesanti e query complesse che accedono a molte righe in ogni tabella. | Ottimizzato per un semplice set singolo di transazioni come il recupero e l'aggiunta di una riga alla volta per ogni tabella. |
6) | È pieno di informazioni valide e coerenti e non necessita di alcuna convalida in tempo reale. | Migliorato per la convalida delle informazioni in arrivo e utilizza le tabelle dei dati di convalida. |
8) | I suoi sistemi sono principalmente orientati al soggetto. | I suoi sistemi sono principalmente orientati al processo. |
9) | Dati fuori. | Ingresso dati. |
10) | È possibile accedere a un numero enorme di dati. | È possibile accedere a un numero limitato di dati. |
undici) | Creato per OLAP, elaborazione analitica in linea. | Creato per OLTP, elaborazione delle transazioni in linea. |
D # 11) Fai notare la differenza tra OLTP e OLAP.
Risposta: La tabella seguente spiega le differenze:
OLTP | OLAP | |
---|---|---|
7) | Il volume dei dati non è molto grande. | Ha un grande volume di dati. |
1) | Utilizzato per gestire i dati operativi. | Utilizzato per gestire i dati informativi. |
Due) | I clienti, gli impiegati e i professionisti IT lo usano. | Manager, analisti, dirigenti e altri knowledge worker lo utilizzano. |
3) | È orientato al cliente. | È orientato al mercato. |
4) | Gestisce i dati attuali, quelli estremamente dettagliati e utilizzati per il processo decisionale. | Gestisce un'enorme quantità di dati storici. Fornisce inoltre funzionalità per l'aggregazione e il riepilogo insieme alla gestione e all'archiviazione dei dati a diversi livelli di granularità. Quindi i dati diventano più comodi per essere utilizzati nel processo decisionale. |
5) | Ha una dimensione del database di 100 MB-GB. | Ha una dimensione del database di 100 GB-TB. |
6) | Utilizza un modello dati ER (entità-relazione) insieme a una progettazione di database orientata all'applicazione. | OLAP utilizza un modello a fiocco di neve o stella insieme a un design di database orientato al soggetto. |
8) | Modalità di accesso: lettura / scrittura. | La modalità di accesso è principalmente in scrittura. |
9) | Completamente normalizzato. | Parzialmente normalizzato. |
10) | La sua velocità di elaborazione è molto veloce. | La sua velocità di elaborazione dipende dal numero di file che contiene, dalle query complesse e dall'aggiornamento dei dati batch |
D # 12) Spiega il concetto principale alla base del Framework di Apache Hadoop.
Risposta: Si basa sull'algoritmo MapReduce. In questo algoritmo, per elaborare un enorme set di dati, vengono utilizzate le operazioni Mappa e Riduci. Mappa, filtra e ordina i dati mentre Riduci, riepiloga i dati. Scalabilità e tolleranza ai guasti sono i punti chiave di questo concetto. Possiamo ottenere queste funzionalità in Apache Hadoop implementando in modo efficiente MapReduce e Multi-threading.
D # 13) Hai mai lavorato con Hadoop Framework?
(Immagine fonte )
Risposta: Molti responsabili delle assunzioni chiedono informazioni sullo strumento Hadoop durante l'intervista per sapere se hai familiarità con gli strumenti e le lingue che l'azienda utilizza. Se hai lavorato con Hadoop Framework, comunica loro i dettagli del tuo progetto per portare alla luce le tue conoscenze e abilità con lo strumento e le sue capacità. E se non ci hai mai lavorato, funzioneranno anche alcune ricerche per mostrare una certa familiarità con i suoi attributi.
Si può dire, per esempio, 'Mentre lavoravo a un progetto di squadra, ho avuto la possibilità di lavorare con Hadoop. Ci siamo concentrati sull'aumento dell'efficienza dell'elaborazione dei dati, quindi, grazie alla sua capacità di aumentare la velocità dell'elaborazione dei dati senza compromettere la qualità durante l'elaborazione distribuita, abbiamo deciso di utilizzare Hadoop.
E poiché la mia azienda precedente si aspettava un aumento considerevole dell'elaborazione dei dati nei prossimi mesi, anche la sua scalabilità è stata utile. Hadoop è anche una rete open source basata su Java, che la rende l'opzione migliore per i progetti con risorse limitate e facile da usare senza alcuna formazione aggiuntiva '.
come aggiungere il plugin svn in eclipse
D # 14) Menziona alcune importanti caratteristiche di Hadoop.
Risposta: le caratteristiche sono le seguenti:
- Hadoop è un framework open source gratuito in cui possiamo modificare il codice sorgente secondo i nostri requisiti.
- Supporta l'elaborazione più rapida distribuita dei dati. HDFS Hadoop archivia i dati in modo distribuito e utilizza MapReduce per elaborare i dati in parallelo.
- Hadoop è altamente tollerante e per impostazione predefinita, in diversi nodi, consente all'utente di creare tre repliche di ciascun blocco. Quindi, se uno dei nodi non riesce, possiamo recuperare i dati da un altro nodo.
- È anche scalabile ed è compatibile con molti hardware.
- Poiché Hadoop ha archiviato i dati in cluster, indipendentemente da tutte le altre operazioni. Quindi è affidabile. I dati memorizzati rimangono inalterati dal malfunzionamento delle macchine. E quindi è anche altamente disponibile.
D # 15) Come puoi aumentare i ricavi aziendali analizzando i Big Data?
Risposta: L'analisi dei big data è una parte vitale delle aziende poiché le aiuta a differenziarsi l'una dall'altra e ad aumentare le entrate. L'analisi dei big data offre suggerimenti e consigli personalizzati alle aziende attraverso l'analisi predittiva.
Inoltre aiuta le aziende a lanciare nuovi prodotti in base alle preferenze e alle esigenze dei clienti. Questo aiuta le aziende a guadagnare molto di più, circa il 5-20% in più. Aziende come Bank of America, LinkedIn, Twitter, Walmart, Facebook, ecc. Utilizzano l'analisi dei Big Data per aumentare le proprie entrate.
D # 16) Durante la distribuzione di una soluzione Big Data, quali passaggi è necessario seguire?
Risposta: ci sono tre passaggi da seguire durante la distribuzione di una soluzione Big Data:
- Ingestione dati È il primo passo nell'implementazione di una soluzione Big Data. È l'estrazione dei dati da varie fonti come SAP, MYSQL, Salesforce, file di registro, database interno, ecc. L'inserimento dei dati può avvenire tramite streaming in tempo reale o processi batch.
- Archivio dati- Dopo che i dati sono stati importati, i dati estratti dovrebbero essere archiviati da qualche parte. È archiviato in database HDFS o NoSQL. HDFS funziona bene per l'accesso sequenziale tramite HBase per l'accesso in lettura o scrittura casuale.
- Elaborazione dati- Questo è il terzo e il passaggio conclusivo per l'implementazione su una soluzione Big Data. Dopo l'archiviazione, i dati vengono elaborati attraverso uno dei framework principali come MapReduce o Pig.
D # 17) Che cos'è uno scanner di blocchi e blocchi in HDFS?
Risposta: Un blocco è la quantità minima di dati che possono essere scritti o letti in HDFS. 64 MB è la dimensione predefinita di un blocco.
Lo scanner a blocchi è un programma che tiene traccia periodicamente del numero di blocchi su un DataNode e li verifica per eventuali errori di checksum e danneggiamento dei dati.
D # 18) Quali sono le sfide che hai dovuto affrontare introducendo nuove applicazioni di analisi dei dati, se ne hai mai introdotta una?
Risposta: Se non hai mai introdotto nuove analisi dei dati, puoi semplicemente dirlo. Perché sono piuttosto costosi e quindi non capita spesso che le aziende lo facciano. Ma se un'azienda decide di investire in essa, può essere un progetto estremamente ambizioso. Avrebbero bisogno di dipendenti altamente qualificati per installare, collegare, utilizzare e mantenere questi strumenti.
Quindi, se hai mai affrontato il processo, di 'loro quali ostacoli hai affrontato e come li hai superati. Se non l'hai fatto, spiega loro in dettaglio quello che sai del processo. Questa domanda determina se si dispone del know-how di base per superare i problemi che potrebbero sorgere durante l'introduzione di nuove applicazioni di analisi dei dati.
Risposta di esempio; 'Ho partecipato all'introduzione di nuove analisi dei dati nella mia azienda precedente. L'intero processo è elaborato e necessita di un processo ben pianificato per una transizione più agevole possibile.
Tuttavia, anche con una pianificazione impeccabile, non possiamo sempre evitare circostanze e problemi imprevisti. Uno di questi problemi era una richiesta incredibilmente alta di licenze utente. È andato ben oltre quello che ci aspettavamo. Per ottenere le licenze aggiuntive l'azienda ha dovuto riallocare le risorse finanziarie.
Inoltre, la formazione doveva essere pianificata in modo da non ostacolare il flusso di lavoro. Inoltre, abbiamo dovuto ottimizzare l'infrastruttura per supportare l'elevato numero di utenti '.
D # 19) Cosa succede se NameNode si arresta in modo anomalo nel cluster HDFS?
Risposta: Il cluster HDFS ha un solo NameNode e mantiene i metadati di DataNode. Avere un solo NameNode fornisce ai cluster HDFS un singolo punto di errore.
Quindi, se NameNode si arresta in modo anomalo, i sistemi potrebbero non essere disponibili. Per evitare ciò, possiamo specificare un NameNode secondario che accetta i checkpoint periodici nei file system HDFS ma non è un backup del NameNode. Ma possiamo usarlo per ricreare NameNode e riavviare.
D # 20) Differenza tra NAS e DAS nel cluster Hadoop.
Risposta: Nel NAS, i livelli di archiviazione e calcolo sono separati, quindi l'archiviazione viene distribuita tra i vari server sulla rete. Mentre in DAS, l'archiviazione è solitamente collegata al nodo di calcolo. Apache Hadoop si basa sul principio dell'elaborazione in prossimità di una posizione di dati specifica.
Quindi, il disco di archiviazione dovrebbe essere locale per il calcolo. DAS ti aiuta a ottenere prestazioni su un cluster Hadoop e può essere utilizzato su hardware di base. In parole semplici, è più conveniente. L'archiviazione NAS è preferibile con una larghezza di banda elevata di circa 10 GbE.
D # 21) Creare un database NoSQL è meglio che costruire un database relazionale?
(Immagine fonte )
Risposta: In risposta a questa domanda, devi mostrare la tua conoscenza di entrambi i database. Inoltre, devi supportarlo con un esempio della situazione che dimostri come applicherai o avrai applicato il know-how in un progetto reale.
La tua risposta potrebbe essere qualcosa del genere: 'In alcune situazioni, potrebbe essere utile creare un database NoSQL. Nella mia ultima azienda, quando il sistema di franchising stava aumentando in modo esponenziale di dimensioni, abbiamo dovuto scalare rapidamente per sfruttare al massimo tutti i dati operativi e di vendita che avevamo.
La scalabilità orizzontale è migliore rispetto alla scalabilità verticale con server più grandi quando si gestisce l'aumento del carico di elaborazione dei dati. È conveniente e più facile da realizzare con i database NoSQL in quanto può gestire facilmente enormi volumi di dati. Ciò è utile quando è necessario rispondere rapidamente a notevoli cambiamenti del carico di dati in futuro.
Sebbene i database relazionali siano dotati di una migliore connettività a qualsiasi strumento di analisi. Ma i database NoSQL hanno molto da offrire '.
D # 22) Cosa fai quando incontri un problema imprevisto con la manutenzione dei dati? Hai provato soluzioni pronte all'uso per questo?
Risposta: Inevitabilmente, ogni tanto si verificano problemi imprevisti in ogni attività di routine, anche durante la manutenzione dei dati. Questa domanda ha lo scopo di sapere se puoi affrontare situazioni di alta pressione e come.
Si può dire qualcosa come 'la manutenzione dei dati potrebbe essere un'attività di routine, ma è fondamentale osservare da vicino le attività specifiche, inclusa la verifica della corretta esecuzione degli script.
Una volta, durante il controllo dell'integrità, mi sono imbattuto in un indice danneggiato che avrebbe potuto causare seri problemi in futuro. Ecco perché ho pensato a una nuova attività di manutenzione per impedire l'aggiunta di indici corrotti nel database dell'azienda '.
D # 23) Hai mai addestrato qualcuno nel tuo campo? Se sì, cosa hai trovato più stimolante al riguardo?
Risposta: Di solito i data engineer sono necessari per formare i loro colleghi su nuovi sistemi o processi che hai creato o formare nuovi dipendenti su sistemi e architetture già esistenti. Quindi, con questa domanda, il tuo intervistatore vuole sapere se puoi gestirlo. Se non hai avuto la possibilità di formare qualcuno da solo, parla delle sfide che qualcuno si è allenato o che sai di aver affrontato.
Un esempio della risposta ideale sarà qualcosa del genere. “Sì, ho avuto la possibilità di formare piccoli e grandi gruppi di colleghi di lavoro. La formazione di nuovi dipendenti con una significativa esperienza in un'altra azienda è il compito più impegnativo in cui mi sono imbattuto. Spesso sono così abituati ad affrontare i dati da una prospettiva diversa che fanno fatica ad accettare il modo in cui facciamo le cose.
Spesso sono estremamente supponenti e pensano di sapere tutto bene ed è per questo che ci vuole molto tempo prima che si rendano conto che un problema può avere più di una soluzione. Cerco di incoraggiarli ad aprire le loro menti e ad accettare possibilità alternative sottolineando il successo della nostra architettura e dei nostri processi '.
D # 24) Quali sono i pro e i contro del lavoro nel cloud computing?
(Immagine fonte )
Risposta:
Professionisti:
- Nessun costo di infrastruttura.
- Gestione minima.
- Nessun problema per quanto riguarda la gestione e l'amministrazione.
- Facile accesso.
- Paga per quello che usi.
- È affidabile.
- Offre controllo, backup e ripristino dei dati.
- Ampio spazio di archiviazione.
Contro:
- Per funzionare bene ha bisogno di una buona connessione Internet con larghezza di banda altrettanto buona.
- Ha i suoi tempi di inattività.
- Il tuo controllo sull'infrastruttura sarà limitato.
- C'è poca flessibilità.
- Ha alcuni costi correnti.
- Potrebbero esserci problemi tecnici e di sicurezza.
D # 25) Il lavoro dei data engineer è solitamente 'dietro le quinte'. Ti senti a tuo agio a lavorare lontano dai 'riflettori'?
Risposta: Il tuo responsabile delle assunzioni vuole sapere se ami le luci della ribalta o puoi lavorare bene in entrambe le situazioni. La tua risposta dovrebbe dire loro che, sebbene ti piacciano le luci della ribalta, sei a tuo agio anche a lavorare dietro le quinte.
'Ciò che conta per me è che dovrei essere un esperto nel mio campo e contribuire alla crescita della mia azienda. Se devo lavorare sotto i riflettori, mi sento a mio agio anche a farlo. Se c'è un problema che i dirigenti devono affrontare, non esiterò ad alzare la voce e portarlo alla loro attenzione '.
D # 26) Cosa succede quando lo scanner blocchi rileva un blocco di dati danneggiato?
Risposta: Prima di tutto DataNode riporta a NameNode. Quindi NameNode inizia a creare una nuova replica tramite la replica del blocco danneggiato. Il blocco di dati danneggiato non verrà eliminato se il conteggio delle repliche delle repliche corrette corrisponde al fattore di replica.
D # 27) Hai mai trovato un nuovo uso innovativo per dati già esistenti? Ha influito positivamente sull'azienda?
Risposta: Questa domanda ha lo scopo di far loro scoprire se sei auto-motivato e abbastanza desideroso di contribuire al successo dei progetti. Se possibile, rispondi alla domanda con un esempio in cui ti sei assunto la responsabilità di un progetto o ti è venuta un'idea. E se hai mai presentato una nuova soluzione a un problema, non perdertela neanche.
Risposta di esempio: “Nel mio ultimo lavoro ho partecipato a scoprire perché abbiamo un alto tasso di turnover dei dipendenti. Ho osservato da vicino i dati di vari reparti dove ho trovato dati altamente correlati in aree chiave come finanza, marketing, operazioni, ecc. E il tasso di turnover dei dipendenti.
Ha collaborato con gli analisti di reparto per una migliore comprensione di tali correlazioni. Con la nostra comprensione, abbiamo apportato alcuni cambiamenti strategici che hanno influenzato positivamente il tasso di turnover dei dipendenti '.
D # 28) Quali abilità non tecniche ritieni siano più utili come ingegnere dei dati?
Risposta: Cerca di evitare le risposte più ovvie come le capacità comunicative o interpersonali. Puoi dire: 'La definizione delle priorità e il multitasking sono spesso tornati utili nel mio lavoro. Riceviamo vari compiti in un giorno perché lavoriamo con diversi reparti. E quindi, diventa fondamentale dare loro la priorità. Rende il nostro lavoro facile e ci aiuta a portarli a termine in modo efficiente '.
D # 29) Quali sono alcuni problemi comuni che hai dovuto affrontare come ingegnere dei dati?
Risposta: Questi sono:
- Integrazione continua e in tempo reale.
- Memorizzazione di enormi quantità di dati e informazioni da tali dati.
- Vincoli di risorse.
- Considerare quali strumenti utilizzare e quali possono fornire i migliori risultati.
Conclusione
L'ingegneria dei dati potrebbe sembrare un lavoro noioso di routine, ma ci sono molte sfaccettature interessanti. Ciò è evidente dalle possibili domande sullo scenario che gli intervistatori potrebbero porre. Dovresti essere pronto a rispondere non solo a domande tecniche libresche, ma anche a domande situazionali come quelle sopra elencate. Solo così sarai in grado di dimostrare di poter fare bene il tuo lavoro e di meritarlo.
Ti auguro il meglio!!
Lettura consigliata
- Domande e risposte dell'intervista
- Domande e risposte al colloquio di prova ETL
- Le 32 migliori domande e risposte per l'intervista di Datastage
- Le principali domande e risposte dell'intervista JSON
- Principali domande e risposte dell'intervista a Teradata
- Le 24 principali domande del colloquio sulla modellazione dei dati con risposte dettagliate
- Top 50+ domande e risposte ai colloqui di database
- Le 30 principali domande e risposte dell'intervista SAS