GNU/Linux >> Linux Esercitazione > >> Linux

Trucchi e scherzetti per amministratori di sistema e operatori

Boh! Halloween è finalmente arrivato. Hai già preparato il tuo costume di Halloween preferito? O forse i tuoi figli si stanno preparando a fare dolcetto o scherzetto. È l'anno 2020 e questa pandemia di Coronavirus è probabilmente la cosa più spaventosa, anche più terrificante dei fantasmi e degli zombi che bussano alla tua porta.

Quando sei un amministratore di sistema, potresti incontrare alcuni momenti davvero spaventosi che ti fanno venire la pelle d'oca e notti insonni, ma anche il fantasma, lo zombi o il mostro più terrificante ha una nemesi da cui scappare, che si tratti di una croce copta, una collana all'aglio , un pezzo di Kryptonite o un esperto amministratore di sistema. In questo articolo, presenterò alcuni possibili momenti spaventosi per un amministratore di sistema come te. Ti dirò anche come puoi gestirli. Dopotutto è Halloween, quindi pensa a questa lista come al mio regalo di Halloween per te.

Ho anche fornito questo blog su YouTube, vorresti guardarlo piuttosto che leggere altro.

Trucco n. 1:crash del server cloud

Sono le 2 del mattino e il tuo smartphone inizia a ronzare. Mezzo sveglio, prendi il telefono e fissi lo schermo. Sparare. La tua e-mail continua a ricevere notifiche generate automaticamente dal sistema di messaggi di Slack/Teams che il tuo server di produzione è rimasto inattivo per due o tre ore. La prossima cosa che sai è che il tuo capo vuole che tu e il resto del team operativo siate lì il prima possibile. Questa è sicuramente una situazione in cui non vorresti trovarti, quindi come puoi evitare che accada?

[ Potrebbe piacerti anche: Comandi Bash bang:un trucco da conoscere per la riga di comando di Linux ]

Trattamento n. 1:bilanciamento del carico e replica:prevenzione del crash del server

Sebbene sia impossibile impedire completamente l'arresto anomalo dei server in esecuzione, è possibile creare un sistema quasi a tolleranza di errore se lo si progetta nel modo giusto. Una soluzione consiste nell'impostare la replica su più ambienti con più cluster e più nodi. È possibile aggiungere un servizio di bilanciamento del carico per garantire che altri cluster continuino a funzionare anche se un cluster si arresta. Se c'è troppo traffico o altri problemi di prestazioni, puoi configurare la funzione di ridimensionamento automatico per aumentare o diminuire.

Trucco n. 2:danneggiamento o perdita di dati

Un nuovo stagista di nome Mike si è unito al tuo team di ingegneri. Eccitato di aver ottenuto gli strumenti di cui ha bisogno, esegue una query SQL senza alcuna intenzione di danneggiare nulla. Ma oh-oh. Questa piccola modifica provoca l'eliminazione della tabella del database e tutti i dati critici dei clienti ora sono spariti. Cosa puoi fare per evitare che si verifichi un problema del genere?

Trattamento n. 2:backup e ripristino dei dati:correggi la perdita e il danneggiamento dei dati

La perdita di dati è un problema serio per qualsiasi servizio o applicazione live. Pertanto, la strategia di backup e ripristino deve essere sempre disponibile, almeno per l'ambiente di produzione. Idealmente, la procedura di backup e ripristino dovrebbe essere disponibile in tutti gli ambienti. Inoltre, crea un meccanismo per automatizzare questo processo. Il modo più semplice per iniziare è creare alcuni script bash per eseguire una serie di comandi di backup e ripristino.

Trucco n. 3:arresto anomalo dell'applicazione

Evviva! Il server e il database ora sono a tolleranza di errore e solidi come una roccia, ma un'applicazione Java che espone importanti endpoint aziendali esplode improvvisamente. Quando un cliente visita il sito Web, vede solo una pagina 404, che costa alla tua azienda un milione di dollari al minuto.

Trattamento n. 3:Osservabilità - registrazione e monitoraggio:identificare rapidamente errori o bug

Gli errori dell'applicazione si verificano continuamente e ci sono molte tecniche e modelli di progettazione di programmazione, come il modello Circuit Breaker, per gestire i problemi. Tuttavia, qualsiasi errore in esecuzione all'interno dell'app deve essere identificato rapidamente prima di poterlo correggere. Pertanto, la registrazione e il monitoraggio sono una necessità assoluta per tutte le applicazioni. Assicurati che la tua applicazione disponga di punti di debug abilitati nei blocchi e nelle righe di codice. Questi errori o output devono essere inviati ai dashboard di monitoraggio in modo che gli sviluppatori possano individuare rapidamente il problema.

Trucco n. 4:un'applicazione lenta

Hai aggiunto la registrazione e il monitoraggio per tutte le applicazioni. Puoi finalmente dormire felice, sognando come vincere il concorso virtuale di costumi di Halloween di quest'anno. Tuttavia, pochi minuti dopo, leggi un'e-mail di un cliente in cui si afferma che il servizio dell'applicazione è davvero lento.

Trattamento n. 4:Strumenti di sviluppo per l'identificazione del collo di bottiglia:scopri dove si verifica il rallentamento

Proprio come uno sviluppatore può individuare rapidamente il collo di bottiglia con il monitoraggio e la registrazione abilitati in tutte le applicazioni, puoi utilizzare strumenti per sviluppatori come traceroute /tracert , Strumenti per sviluppatori del browser Chrome e Wireshark per risolvere i problemi delle applicazioni e identificare facilmente dove si verificano problemi di prestazioni. Conoscere strumenti come questo può aiutare uno sviluppatore ad affrontare i problemi complessi legati alle applicazioni basate su cloud.

Trucco n. 5:latenza lenta segnalata in una sola posizione

Dato che sei un amministratore di sistema esperto, hai finalmente trovato la causa della lentezza generale dell'applicazione. Hai risolto il problema e il cliente in seguito ti invia una lettera di ringraziamento affermando che tutto è a posto. Tuttavia, il giorno dopo, ricevi un'e-mail da un altro cliente, con sede a Sydney, in Australia, che si lamenta del fatto che l'applicazione della tua azienda risulta lenta quando visita il sito. Cosa sta succedendo?

Trattamento n. 5:Rete di distribuzione dei contenuti (CDN) e accesso multiregione:riduci la latenza

Sebbene il problema possa essere ancora un problema di latenza dovuto alla progettazione di un'applicazione, il problema potrebbe essere dovuto alla mancanza di disponibilità del server per il cliente in quella città o regione. Un modo per risolvere il problema consiste nell'aggiungere una posizione aggiuntiva per i servizi in esecuzione in modo che il server più vicino possa essere selezionato automaticamente per fornire il contenuto necessario al cliente. In altre parole, un cluster multiregione e una rete di distribuzione dei contenuti (CDN) possono aiutare a mitigare il problema.

[ Scarica ora:una guida per l'amministratore di sistema allo scripting Bash. ]

Concludi

È tutto gente! Hai imparato a risolvere i cinque punti deboli più comuni che potresti incontrare come amministratore di sistema quando hai applicazioni in esecuzione in un server o in un ambiente cloud. Problemi come questi si verificano sempre, ma ci sono modi per prevenire o mitigare i problemi in modo appropriato con l'architettura giusta e un buon approccio di amministratore di sistema. Spero che questo articolo ti abbia aiutato a diventare un amministratore di sistema migliore. Buon Halloween!

Utilizzo di Ansible per distribuire Microsoft SQL Server 2019 su Red Hat Enterprise Linux 8

Otto modi per proteggere l'accesso SSH sul tuo sistema

Linux

16 suggerimenti e trucchi di iptables per gli amministratori di sistema

Gestione del tempo:strumenti e strategie indispensabili per gli amministratori di sistema

Come installare e utilizzare Okteta per file di dati RAW in Linux

Annunci di testo pay per click per avvocati e avvocati

Che cos'è un database distribuito e a cosa servono i sistemi di dati distribuiti?

I 15 migliori software econometrico e statistico per sistemi Linux