top 32 best datastage interview questions
Elenco delle domande e risposte dell'intervista Datastage più frequenti per aiutarti a prepararti per il prossimo colloquio:
DataStage è uno strumento ETL molto popolare disponibile nel mercato attuale.
In questo articolo, condivido una serie di domande-risposte molto utili destinate alle interviste di IBM Datastage. Passare in rassegna le domande dell'intervista di Datastage di seguito può semplificare l'intervista.
Abbiamo fornito risposte dettagliate alle domande dell'intervista di Datastage che saranno utili a matricole e professionisti esperti.
Lettura consigliata => Domande dell'intervista di test ETL
Domande e risposte sui colloqui di Datastage più comuni
Iniziamo!
D # 1) Cos'è Datastage?
Risposte: Datastage è un file Strumento ETL dato da IBM che utilizza una GUI per progettare soluzioni di integrazione dei dati. Questo è stato il primo strumento ETL che ha fornito un concetto di parallelismo.
È disponibile nelle seguenti 3 diverse edizioni
- Server Edition
- Enterprise Edition
- Edizione MVS
D # 2) Evidenzia le caratteristiche principali di Datastage?
Risposte: Le caratteristiche principali di Datastage sono evidenziate di seguito:
- È il componente di integrazione dei dati del server delle informazioni IBM Infosphere.
- È uno strumento basato su GUI. Dobbiamo solo trascinare e rilasciare gli oggetti Datastage e possiamo convertirli in codice Datastage.
- Serve per eseguire le operazioni ETL (Extract, Transform, Load)
- Fornisce connettività a più sorgenti e più target allo stesso tempo
- Fornisce tecniche di partizionamento e di elaborazione parallela che consentono ai lavori Datastage di elaborare un enorme volume di dati molto più velocemente.
- Dispone di connettività a livello aziendale.
D # 3) Quali sono gli utilizzi principali dello strumento Datastage?
Risposte: Datastage è uno strumento ETL che viene utilizzato principalmente per estrarre i dati dai sistemi di origine, trasformarli e infine caricarli sui sistemi di destinazione.
D # 4) Quali sono le principali differenze che hai osservato tra la versione 7.xe 8.x di DataStage?
Risposte: Qui sono le principali differenze tra le due versioni
7.x | 8.x |
---|---|
La versione 7.x dipendeva dalla piattaforma | Questa versione è indipendente dalla piattaforma |
Ha un'architettura a 2 livelli in cui il datastage è costruito sul server Unix | Ha un'architettura a 3 livelli in cui abbiamo il database del server UNIX in basso, quindi il database XMETA che funge da repository e poi abbiamo il datastage in cima. |
Non esiste il concetto di set di parametri | Abbiamo set di parametri che possono essere utilizzati ovunque nel progetto. |
Avevamo designer e manager come due clienti separati | In questa versione, il client manager è stato unito al client designer |
Abbiamo dovuto cercare manualmente i lavori in questa versione | Qui abbiamo un'opzione di ricerca rapida nel repository dove possiamo cercare facilmente i lavori. |
D # 5) Puoi evidenziare le caratteristiche principali di IBM Infosphere Information Server?
Risposte: Le caratteristiche principali della suite IBM Infosphere information server sono:
cos'è una lista collegata c ++
- Fornisce un'unica piattaforma per l'integrazione dei dati. Ha la capacità di connettersi a più sistemi di origine e di scrivere su più sistemi di destinazione.
- Si basa su livelli centralizzati. Tutti i componenti della suite sono in grado di condividere l'architettura di base della suite.
- Dispone di livelli per il repository unificato, per i servizi di metadati integrati e un motore parallelo comune.
- Fornisce strumenti per l'analisi, la pulizia, il monitoraggio, la trasformazione e la distribuzione dei dati.
- Ha capacità di elaborazione massicciamente parallele. Risulta che l'elaborazione è molto veloce.
D # 6) Quali sono i diversi livelli nell'architettura del server delle informazioni?
Risposte: Di seguito sono riportati i diversi livelli dell'architettura del server delle informazioni
- Interfaccia utente unificata
- Servizi comuni
- Elaborazione parallela unificata
- Metadati unificati
- Connettività comune
D # 7) Quale potrebbe essere un sistema di origine dati?
Risposte: Potrebbe essere una tabella di database, un file flat o anche un'applicazione esterna come People Soft.
D # 8) Su quale interfaccia lavorerai come sviluppatore?
Risposte: In qualità di sviluppatore Datastage, lavoriamo sull'interfaccia client Datastage, nota come designer Datastage, che deve essere installata sul sistema locale. Nel backend, è connesso al server Datastage.
D # 9) Quali sono i diversi servizi comuni in Datastage?
Risposte: Di seguito è riportato l'elenco dei servizi comuni in Datastage:
- Servizi di metadati
- Distribuzione unificata del servizio
- Servizi di sicurezza
- Servizi di looping e reporting.
D # 10) Come inizi a sviluppare un progetto Datastage?
Risposte: Il primo passo è creare un lavoro Datastage sul server Datastage. Tutti gli oggetti Datastage che creiamo vengono memorizzati nel progetto Datastage. Un progetto Datastage è un ambiente separato sul server per lavori, tabelle, definizioni e routine.
Un progetto Datastage è un ambiente separato sul server per lavori, tabelle, definizioni e routine.
D # 11) Che cos'è un lavoro DataStage?
Risposte: Il lavoro Datastage è semplicemente un codice DataStage che creiamo come sviluppatore. Contiene diverse fasi collegate tra loro per definire i dati e il flusso di processo.
Le fasi non sono altro che le funzionalità che vengono implementate.
Per esempio: Supponiamo che io voglia fare una somma dell'importo delle vendite. Questa può essere un'operazione 'raggruppa per' che verrà eseguita in una fase.
Ora, voglio scrivere il risultato in un file di destinazione. Quindi, questa operazione verrà eseguita da un'altra fase. Dopo aver definito entrambe le fasi, è necessario definire il flusso di dati dalla fase 'gruppo per' alla fase del file di destinazione. Questo flusso di dati è definito dai collegamenti DataStage.
Dopo aver definito entrambe le fasi, è necessario definire il flusso di dati dalla fase 'gruppo per' alla fase del file di destinazione. Questo flusso di dati è definito dai collegamenti DataStage.
D # 12) Cosa sono le sequenze DataStage?
Risposte: La sequenza Datastage collega i lavori DataStage in un flusso logico.
D # 13) Se vuoi usare lo stesso pezzo di codice in lavori diversi, come lo farai?
Risposte: Questo può essere fatto utilizzando contenitori condivisi. Abbiamo contenitori condivisi per la riutilizzabilità. Un contenitore condiviso è un elemento di lavoro riutilizzabile costituito da fasi e collegamenti. Possiamo chiamare un contenitore condiviso in diversi lavori Datastage.
D # 14) Dove vengono archiviati i lavori Datastage?
Risposte: I lavori Datastage vengono archiviati nel repository. Abbiamo varie cartelle in cui possiamo memorizzare i lavori di Datastage.
D # 15) Dove vedi le diverse fasi del designer?
Risposte: Tutte le fasi sono disponibili all'interno di una finestra chiamata ' Tavolozza ' . Ha varie categorie a seconda del tipo di funzione fornita dallo stage.
Le varie categorie di fasi nella tavolozza sono: Generale, Qualità dei dati, Database, Sviluppo, File, Elaborazione, ecc.
Q # 16) Quali sono le fasi di elaborazione?
Risposte: Le fasi di elaborazione ci consentono di applicare l'effettiva trasformazione dei dati.
Per esempio , Il ' la fase di aggregatore nella categoria Elaborazione ci consente di applicare tutte le operazioni di 'raggruppamento per'. Allo stesso modo, abbiamo altre fasi nell'elaborazione come la fase 'Join' che ci consente di unire i dati provenienti da due diversi flussi di input.
D # 17) Quali sono i passaggi necessari per creare un semplice lavoro Datastage di base?
Risposte: Fare clic su File -> Fare clic su Nuovo -> Seleziona lavoro parallelo e premere Ok. Si aprirà una finestra di lavoro parallelo. In questo lavoro parallelo, possiamo mettere insieme diverse fasi e definire il flusso di dati tra di loro. Il lavoro DataStage più semplice è un lavoro ETL.
In questo, dobbiamo prima estrarre i dati dal sistema di origine per il quale possiamo utilizzare uno stage di file o uno stage di database perché il mio sistema di origine può essere una tabella di database o un file.
Supponiamo di leggere i dati da un file di testo. In questo caso, trascineremo e rilasciamo la fase 'File sequenziale' nella finestra del lavoro parallelo. Ora, dobbiamo eseguire alcune trasformazioni su questi dati. Utilizzeremo la fase 'Trasformatore' disponibile nella categoria Elaborazione. Possiamo scrivere qualsiasi logica nella fase Transformer.
Infine, dobbiamo caricare i dati elaborati in una tabella di destinazione. Supponiamo che il mio database di destinazione sia DB2. Quindi, per questo, selezioneremo la fase del connettore DB2. Quindi collegheremo questi stati di dati tramite collegamenti sequenziali.
Dopodichè , dobbiamo configurare le fasi in modo che puntino al file system o al database corretto.
Per esempio, Per la fase File sequenziale, dobbiamo definire i parametri obbligatori come il nome del file, la posizione del file, i metadati della colonna.
Quindi dobbiamo compilare il lavoro Datastage. La compilazione del lavoro verifica la sintassi del lavoro e crea un file eseguibile per il lavoro Datastage che può essere eseguito in fase di esecuzione.
D # 18) Assegna un nome ai diversi metodi di ordinamento in Datastage.
Risposte: Sono disponibili due metodi:
- Ordinamento link
- Ordinamento datastage integrato
D # 19) In un batch se un lavoro non riesce nel mezzo e vuoi riavviare il batch da quel particolare lavoro e non da zero, cosa farai?
Risposte: In Datastage, c'è un'opzione nella sequenza di lavoro - 'Aggiungi checkpoint in modo che la sequenza possa essere riavviata in caso di errore' . Se questa opzione è selezionata, possiamo rieseguire la sequenza di lavoro dal punto in cui non è riuscita.
Q # 20) Come importate ed esportate i lavori Datastage?
Risposte: F o questo, sotto le funzioni della riga di comando per questo
come usare un file swf
- Importare: dsimport.exe
- Esportare: dsexport.exe
D # 21) Cosa sono le routine in Datastage? Elenca vari tipi di routine.
Risposte: routine è un insieme di funzioni definite dal gestore DS. Viene eseguito tramite lo stadio del trasformatore.
quale delle seguenti affermazioni è vera per un test di sistema?
Esistono 3 tipi di routine:
- Routine parallele
- Routine mainframe
- Routine del server
D # 22) Come rimuovete i valori duplicati in DataStage?
Risposte: Esistono due modi per gestire i valori duplicati
- Possiamo usare rimuovi fase duplicata per eliminare i duplicati.
- Possiamo utilizzare la fase di ordinamento per rimuovere i duplicati. La fase di ordinamento ha una proprietà chiamata 'consenti duplicati'. Non otterremo valori duplicati nell'output di sort impostando questa proprietà uguale a false.
D # 23) Quali sono i diversi tipi di visualizzazioni disponibili in un director di Datastage?
Risposte: Sono disponibili 3 tipi di visualizzazioni nel Director di Datastage. Sono:
- Visualizzazione registro
- Visualizzazione dello stato
- Visualizzazione lavoro
D # 24) Distinguere tra Informatica e Datastage. Quale sceglieresti e perché?
Risposte: Sia Informatica che DataStage sono potenti strumenti ETL.
I punti arruolati distinguono tra entrambi gli strumenti:
Computing | Datastage | |
---|---|---|
Elaborazione parallela | Informatica non supporta l'elaborazione parallela. | Al contrario, il datastage fornisce un meccanismo per l'elaborazione parallela. |
Implementazione di SCD | È abbastanza semplice implementare gli SCD (dimensioni a modifica lenta) in Informatica. | Tuttavia, è complesso implementare SCD nel datastage. Datastage supporta SCD semplicemente tramite script personalizzati. |
Controllo della versione | Informatica supporta il controllo delle versioni tramite check-in e check-out degli oggetti. | Tuttavia, non abbiamo questa funzionalità disponibile in datastage. |
Trasformazioni disponibili | Sono disponibili trasformazioni minori. | Datastage offre una maggiore varietà di trasformazioni rispetto a Informatica. |
Potenza di ricerca | Informatica fornisce una ricerca cache dinamica molto potente | Non abbiamo nulla di simile in datastage. |
A mio parere personale, preferirei Informatica su Datastage. Il motivo è che ho trovato Informatica più sistematico e intuitivo di DataStage.
Un altro motivo importante è che il debug e la gestione degli errori sono molto migliori in Informatica rispetto a Datastage. Pertanto, la risoluzione dei problemi diventa più facile in Informatica. Datastage non fornisce supporto completo per la gestione degli errori.
=> Vuoi saperne di più su Informatica? Noi abbiamo un spiegazione dettagliata qui.
D # 25) Dai un'idea delle variabili di sistema.
Risposte: Le variabili di sistema sono le variabili di sola lettura che iniziano con '@' che può essere letto dallo stadio del trasformatore o dalla routine. Sono utilizzati per ottenere le informazioni di sistema.
Q # 26) Qual è la differenza tra stadio passivo e stadio attivo?
Risposte: Gli stadi passivi vengono utilizzati per l'estrazione e il caricamento mentre gli stadi attivi vengono utilizzati per la trasformazione.
D # 27) Quali sono i vari tipi di contenitori disponibili in Datastage?
Risposte: Abbiamo sotto 2 contenitori in Datastage:
- Contenitore locale
- Contenitore condiviso
D # 28) Il valore della variabile di staging è memorizzato temporaneamente o permanentemente?
Risposte: Temporaneamente. È una variabile temporanea.
D # 29) Quali sono i diversi tipi di lavoro in Datastage?
Risposte: Abbiamo due tipi di lavori in Datastage:
- Lavori del server (vengono eseguiti in modo sequenziale)
- Lavori paralleli (vengono eseguiti in modo parallelo)
D # 30) Qual è l'uso di Datastage director?
Risposte: Tramite Datastage director, possiamo pianificare un lavoro, convalidare il lavoro, eseguire il lavoro e monitorare il lavoro.
D # 31) Quali sono i vari tipi di file hash?
Risposte: Abbiamo 2 tipi di file hash:
- File hash statico
- File hash dinamico
Q # 32) Cos'è una fase di qualità?
Risposte: La fase di qualità (chiamata anche fase di integrità) è una fase che aiuta a combinare insieme i dati provenienti da fonti diverse.
Conclusione
Dovresti avere una pratica conoscenza dell'architettura Datastage, delle sue caratteristiche principali e dovresti essere in grado di spiegare come è diverso da alcuni altri popolari strumenti ETL.
Inoltre , dovresti avere una buona idea delle diverse fasi e del loro utilizzo, un modo end-to-end per creare un lavoro Datastage e eseguirlo.
Lettura consigliata => Cos'è il test ETL?
Ti auguro il meglio!
Lettura consigliata
- Domande e risposte al colloquio di prova ETL
- 10 migliori strumenti di mappatura dei dati utili nel processo ETL (2021 LIST)
- 15 migliori strumenti ETL nel 2021 (un elenco aggiornato completo)
- Esercitazione sul test del data warehouse con esempi | Guida al test ETL
- Esercitazione sul test del data warehouse di test ETL (una guida completa)
- Test ETL e DB: uno sguardo più da vicino alla necessità di test ETL, alla pianificazione e agli strumenti ETL
- Come eseguire test ETL utilizzando Informatica PowerCenter Tool
- Metadati in Data Warehouse (ETL) spiegati con esempi
- Comunicato stampa - Rilascio della nuova versione morbida di iCEDQ della piattaforma di test ETL e migrazione dei dati
- I 10 migliori strumenti di test ETL nel 2021
- Che cos'è il processo ETL (Extract, Transform, Load) in Data Warehouse?