SAS, NAS, SAN: un passo verso le reti di storage. Sistemi di archiviazione dati (SDS) Sistema di archiviazione dati

Qual è lo scopo dei sistemi archivio dati(ShD)?

I sistemi di archiviazione dati sono progettati per l'archiviazione sicura e tollerante ai guasti dei dati elaborati con la capacità di ripristinare rapidamente l'accesso ai dati in caso di guasto del sistema.

Quali sono i principali tipi di sistemi di archiviazione?

Per tipo di implementazione, i sistemi di storage sono suddivisi in hardware e software. A seconda del campo di applicazione, i sistemi di storage si dividono in individuali, per piccoli gruppi di lavoro, per gruppi di lavoro, per imprese, corporate. A seconda del tipo di connessione, i sistemi di accumulo si suddividono in:

1. DAS (Direct Attached Storage - sistemi collegati diretti)

caratteristica di questo tipo sistemi è che il controllo sull'accesso ai dati per i dispositivi collegati alla rete viene effettuato dal server o dalla workstation a cui è collegato lo storage.

2. NAS (Network Attached Storage - sistemi collegati a una LAN)

In questo tipo di sistema, l'accesso alle informazioni che si trovano nel repository è controllato da un software che viene eseguito nel repository stesso.

3. SAN (rete collegata allo storage) - sistemi che costituiscono una rete tra server che elaborano dati e, appunto, sistemi di archiviazione);

Con questo metodo di creazione di un sistema di archiviazione dati, il controllo sull'accesso alle informazioni viene effettuato da software in esecuzione su server di archiviazione. Tramite switch SAN, lo storage è connesso ai server utilizzando protocolli di accesso ad alte prestazioni (Fibre Channel, iSCSI, ATA over ethernet, ecc.)

Quali sono le caratteristiche dell'implementazione software e hardware dei sistemi di storage?

L'implementazione hardware del sistema di archiviazione è un unico complesso hardware costituito da un dispositivo di archiviazione (che è un disco o un array di dischi su cui i dati sono archiviati fisicamente) e un dispositivo di controllo (un controller che distribuisce i dati tra gli elementi di archiviazione).

L'implementazione software del sistema di archiviazione è un sistema distribuito in cui i dati vengono archiviati senza essere legati a un particolare archivio o server e si accede ai dati tramite un software specializzato responsabile della sicurezza dei dati archiviati).

Nel caso più semplice, una SAN è costituita da sistemi di storage, switch e server collegati da canali di comunicazione ottici. Oltre ai sistemi di archiviazione su disco diretti nella SAN, è possibile collegare librerie di dischi, librerie di nastri (streamer), dispositivi per la memorizzazione di dati su dischi ottici (CD/DVD e altri), ecc.

Un esempio di infrastruttura a disponibilità elevata in cui i server sono connessi contemporaneamente a una rete locale (a sinistra) ea una rete di archiviazione (a destra). Tale schema fornisce l'accesso ai dati che si trovano sul sistema di archiviazione in caso di guasto di qualsiasi modulo processore, switch o percorso di accesso.

L'utilizzo di SAN consente di fornire:

  • gestione centralizzata delle risorse di server e sistemi di archiviazione dati;
  • connessione di nuovi array di dischi e server senza interrompere il funzionamento dell'intero sistema di storage;
  • utilizzo di apparecchiature precedentemente acquistate insieme a nuovi dispositivi di archiviazione;
  • accesso rapido e affidabile alle unità dati ubicate a grande distanza dai server, * senza significative perdite di prestazioni;
  • accelerare il processo di backup e ripristino dei dati - BURA.

Storia

Lo sviluppo delle tecnologie di rete ha portato all'emergere di due soluzioni di rete per l'archiviazione: reti di archiviazione Storage Area Network (SAN) per lo scambio di dati a livello di blocco supportato dai file system client e server per l'archiviazione a livello di file Network Attached Storage ( NAS). Per distinguere i sistemi di storage tradizionali dai sistemi di storage di rete, è stato proposto un altro retronimo: Direct Attached Storage (DAS).

DAS, SAN e NAS che compaiono successivamente sul mercato riflettono le catene di relazioni in evoluzione tra le applicazioni che utilizzano i dati ei byte sui media contenenti questi dati. C'era una volta, i programmi applicativi stessi leggevano e scrivevano blocchi, quindi i driver apparivano come parte di sistema operativo. Nei moderni DAS, SAN e NAS, la catena è composta da tre anelli: il primo collegamento è la creazione di array RAID, il secondo è l'elaborazione di metadati che consente di interpretare i dati binari sotto forma di file e record e il terzo è i servizi per fornire i dati all'applicazione. Differiscono in dove e come vengono implementati questi collegamenti. Nel caso di DAS, lo storage è "nudo", fornisce solo la possibilità di archiviare e accedere ai dati, e tutto il resto viene eseguito sul lato server, a cominciare dalle interfacce e dai driver. Con l'avvento della SAN, la fornitura RAID viene trasferita sul lato storage, tutto il resto rimane lo stesso come nel caso di DAS. E il NAS è diverso in quanto i metadati vengono anche trasferiti al sistema di archiviazione per fornire l'accesso ai file, qui il client deve solo supportare i servizi di dati.

L'emergere della SAN è diventato possibile dopo che il protocollo Fibre Channel (FC) è stato sviluppato nel 1988 e approvato come standard dall'ANSI nel 1994. Il termine Storage Area Network risale al 1999. Nel tempo, l'FC ha lasciato il posto a Ethernet e le reti IP-SAN con connessione iSCSI si sono diffuse.

L'idea di un server di archiviazione di rete NAS appartiene a Brian Randall della Newcastle University ed è stata implementata nelle macchine su un server UNIX nel 1983. Questa idea ha avuto un tale successo che è stata ripresa da diverse aziende, tra cui Novell, IBM e Sun, ma alla fine ha cambiato i leader di NetApp ed EMC.

Nel 1995, Garth Gibson ha sviluppato i principi del NAS e ha creato sistemi di storage a oggetti (Object Storage, OBS). Iniziò dividendo tutte le operazioni su disco in due gruppi, uno contenente le operazioni più frequenti, come letture e scritture, e l'altro, quelle più rare, come le operazioni di denominazione. Poi ha proposto un altro contenitore oltre a blocchi e file, lo ha chiamato oggetto.

OBS si distingue per un nuovo tipo di interfaccia, si chiama oggetto. I servizi client di dati interagiscono con i metadati tramite l'API degli oggetti. Oltre a memorizzare i dati, OBS supporta anche RAID, archivia i metadati relativi agli oggetti e supporta un'interfaccia a oggetti. DAS e SAN e NAS e OBS coesistono nel tempo, ma ogni tipo di accesso è più adatto a un particolare tipo di dati e applicazioni.

Architettura SAN

Topologia di rete

SAN è una rete dati ad alta velocità progettata per connettere i server ai dispositivi di archiviazione. Una varietà di topologie SAN (point-to-point, Arbitrated Loop e switching) sostituiscono le tradizionali connessioni bus server-storage e offrono maggiore flessibilità, prestazioni e affidabilità rispetto a loro. Il concetto di SAN si basa sulla capacità di collegare qualsiasi server a qualsiasi dispositivo di archiviazione operante sul protocollo Fibre Channel. Il principio di interazione dei nodi in una SAN con topologie point-to-point o switching è mostrato nelle figure. In una SAN ad anello arbitrato, il trasferimento dei dati avviene in sequenza da nodo a nodo. Per avviare il trasferimento dei dati, il dispositivo trasmittente avvia un arbitrato per il diritto all'uso del supporto di trasferimento dati (da cui il nome della topologia - Arbitrated Loop).

La base di trasporto della SAN è il protocollo Fibre Channel, che utilizza connessioni di dispositivi sia in rame che in fibra ottica.

Componenti SAN

I componenti SAN sono suddivisi in:

  • Risorse di archiviazione dati;
  • Dispositivi che implementano l'infrastruttura SAN;

Adattatori bus host

Risorse di archiviazione

Le risorse di archiviazione includono array di dischi, unità nastro e librerie Fibre Channel. Le risorse di storage realizzano molte delle loro capacità solo quando sono incluse nella SAN. Pertanto, gli array di dischi di fascia alta possono replicare i dati tra gli array su reti Fibre Channel e le librerie di nastri possono trasferire i dati su nastro direttamente dagli array di dischi Fibre Channel, bypassando la rete e i server (backup serverless). I più diffusi sul mercato sono gli array di dischi di EMC, Hitachi, IBM, Compaq (la famiglia Storage Works ereditata da Compaq da Digital), e tra i produttori di librerie a nastro ricordiamo StorageTek, Quantum/ATL, IBM.

Dispositivi che implementano l'infrastruttura SAN

I dispositivi che implementano l'infrastruttura SAN sono switch Fibre Channel (switch Fibre Channel, switch FC), hub (Hub Fibre Channel) e router (router Fibre Channel-SCSI).Gli hub vengono utilizzati per combinare i dispositivi operanti nel Loop Arbitrato Fibre Channel ( FC_AL). L'uso degli hub consente di connettere e disconnettere dispositivi in ​​un loop senza arrestare il sistema, poiché l'hub chiude automaticamente il loop se un dispositivo viene disconnesso e apre automaticamente il loop se ad esso viene collegato un nuovo dispositivo. Ogni cambio di ciclo è accompagnato da un complesso processo di inizializzazione. Il processo di inizializzazione è in più fasi e prima che sia completato, lo scambio di dati nel ciclo non è possibile.

Tutte le moderne SAN sono basate su switch che consentono di implementare una connessione di rete a tutti gli effetti. Gli switch non solo possono collegare dispositivi Fibre Channel, ma anche limitare l'accesso tra dispositivi, per i quali vengono create le cosiddette zone sugli switch. I dispositivi posti in zone diverse non possono comunicare tra loro. Il numero di porte in una SAN può essere aumentato collegando gli switch tra loro. Un gruppo di switch collegati è chiamato Fibre Channel Fabric o semplicemente Fabric. I collegamenti tra gli switch sono chiamati Interswitch Links o ISL in breve.

Software

Il software consente di implementare la ridondanza dei percorsi di accesso del server agli array di dischi e la distribuzione dinamica del carico tra i percorsi. Per la maggior parte degli array di dischi, esiste un modo semplice per determinare se le porte a cui si accede tramite controller diversi sono per lo stesso disco. Un software specializzato mantiene una tabella dei percorsi di accesso ai dispositivi e garantisce che i percorsi siano disabilitati in caso di incidente, la connessione dinamica di nuovi percorsi e il bilanciamento del carico tra di loro. Di norma, i produttori di array di dischi offrono software specializzato di questo tipo per i propri array. VERITAS Software produce il software VERITAS Volume Manager, progettato per organizzare i volumi dei dischi logici dai dischi fisici e fornire la ridondanza dei percorsi di accesso ai dischi, nonché il bilanciamento del carico tra di essi per gli array di dischi più conosciuti.

Protocolli utilizzati

Le SAN utilizzano protocolli di basso livello:

  • Fibre Channel Protocol (FCP), trasporto SCSI su Fibre Channel. Il protocollo più utilizzato al momento. Disponibile in 1 Gbit/s, 2 Gbit/s, 4 Gbit/s, 8 Gbit/s e 10 Gbit/s.
  • iSCSI, trasporto SCSI su TCP/IP.
  • Trasporto FCoE, FCP/SCSI su Ethernet pura.
  • FCIP e iFCP, incapsulamento FCP/SCSI e trasmissione in pacchetti IP.
  • HyperSCSI, SCSI su trasporto Ethernet.
  • Trasporto FICON su Fibre Channel (utilizzato solo dai mainframe).
  • ATA su Ethernet, ATA su trasporto Ethernet.
  • Trasporto SCSI e/o TCP/IP tramite InfiniBand (IB).

Vantaggi

  • Elevata affidabilità di accesso ai dati che si trovano su sistemi di archiviazione esterni. Indipendenza della topologia SAN dai sistemi di storage e dai server utilizzati.
  • Archiviazione centralizzata dei dati (affidabilità, sicurezza).
  • Comoda gestione centralizzata di switching e dati.
  • Trasferimento di traffico I/O intensivo su una rete separata - scaricamento della LAN.
  • Alte prestazioni e bassa latenza.
  • Scalabilità e flessibilità del SAN Logical Design
  • Le dimensioni geografiche della SAN, a differenza della DAS classica, sono praticamente illimitate.
  • La capacità di distribuire rapidamente le risorse tra i server.
  • La possibilità di creare soluzioni cluster fault-tolerant senza costi aggiuntivi in ​​base alla SAN esistente.
  • circuito semplice Riserva copia- tutti i dati sono in un unico posto.
  • Disponibilità di funzionalità e servizi aggiuntivi (istantanee, replica remota).
  • SAN ad alta sicurezza.

La condivisione dei sistemi di storage in genere semplifica l'amministrazione e aggiunge una discreta quantità di flessibilità poiché i cavi e gli array di dischi non devono essere fisicamente trasportati e ricablati da un server all'altro.

Un altro vantaggio è la possibilità di avviare i server direttamente dalla rete di archiviazione. Con questa configurazione, puoi sostituire rapidamente e facilmente un guasto

Come sapete, negli ultimi anni c'è stato un aumento intensivo del volume di informazioni e dati accumulati. Uno studio di IDC Digital Universe ha dimostrato che i contenuti digitali del mondo possono crescere da 4,4 ZB a 44 ZB entro il 2020. Secondo gli esperti, il volume delle informazioni digitali raddoppia ogni due anni. Pertanto, oggi il problema non solo dell'elaborazione delle informazioni, ma anche della loro conservazione è estremamente rilevante.

Per affrontare questo problema, esiste attualmente uno sviluppo molto attivo di una direzione come lo sviluppo di sistemi di archiviazione (reti / sistemi di archiviazione dati). Proviamo a capire cosa significa esattamente il moderno settore IT con il termine "sistema di archiviazione dati".

Lo storage è una soluzione integrata software e hardware volta a organizzare un'archiviazione affidabile e di alta qualità di varie risorse informative, oltre a fornire un accesso ininterrotto a tali risorse.

La creazione di un tale complesso dovrebbe aiutare a risolvere una varietà di compiti che devono affrontare le aziende moderne nel corso della costruzione di un sistema informativo integrale.

I componenti principali del sistema di accumulo:

Dispositivi di archiviazione (libreria di nastri, array di dischi interni o esterni);

Sistema di monitoraggio e controllo;

Sottosistema di backup/archiviazione dei dati;

Software per la gestione dell'archiviazione;

Accedi all'infrastruttura a tutti i dispositivi di archiviazione.

Obiettivi principali

Considera le attività più tipiche:

decentramento delle informazioni. Alcune organizzazioni hanno una struttura di filiale sviluppata. Ogni singola unità di tale organizzazione dovrebbe avere libero accesso a tutte le informazioni di cui ha bisogno per funzionare. I moderni sistemi di archiviazione interagiscono con utenti che si trovano a grande distanza dal centro in cui viene eseguita l'elaborazione dei dati, quindi sono in grado di risolvere questo problema.

Incapacità di prevedere le risorse finali richieste. Durante la pianificazione del progetto, può essere estremamente difficile determinare con esattezza la quantità di informazioni con cui si dovrà lavorare durante il funzionamento del sistema. Inoltre, la quantità di dati accumulati è in costante aumento. La maggior parte dei moderni sistemi di storage supporta la scalabilità (la capacità di aumentare le proprie prestazioni dopo l'aggiunta di risorse), quindi la potenza del sistema può essere aumentata in proporzione all'aumento dei carichi (aggiornamento).

Sicurezza di tutte le informazioni memorizzate. Può essere abbastanza difficile controllare e limitare l'accesso alle risorse informative di un'impresa. Azioni non qualificate del personale di servizio e degli utenti, tentativi deliberati di sabotaggio: tutto ciò può causare danni significativi ai dati archiviati. I moderni sistemi di storage utilizzano vari schemi di tolleranza ai guasti che consentono loro di resistere sia al sabotaggio deliberato che alle azioni incapaci di dipendenti non qualificati, mantenendo così l'operabilità del sistema.

La complessità della gestione dei flussi informativi distribuiti - qualsiasi azione volta a modificare i dati informativi distribuiti in una delle filiali crea inevitabilmente una serie di problemi - dalla complessità della sincronizzazione di diversi database e versioni dei file degli sviluppatori all'inutile duplicazione delle informazioni. Prodotti software la gestione, fornita con il sistema di archiviazione, ti aiuterà a semplificare in modo ottimale e ottimizzare efficacemente il lavoro con le informazioni memorizzate.

Costi elevati. Secondo uno studio condotto da IDC Perspectives, i costi di archiviazione dei dati rappresentano circa il 23% di tutta la spesa IT. Questi costi includono il costo dei componenti software e hardware del complesso, i pagamenti al personale di servizio, ecc. L'uso di sistemi di archiviazione consente di risparmiare sull'amministrazione del sistema e riduce anche i costi del personale.


Principali tipologie di sistemi di accumulo

Tutti i sistemi di archiviazione dati sono divisi in 2 tipi: sistemi di archiviazione su nastro e su disco. Ciascuna delle due specie di cui sopra è divisa, a sua volta, in diverse sottospecie.

Memoria su disco

Tali sistemi di archiviazione vengono utilizzati per creare copie intermedie di backup, nonché per il lavoro operativo con vari dati.

I sistemi di archiviazione su disco sono suddivisi nelle seguenti sottospecie:

Dispositivi per backup(varie librerie di dischi);

Dispositivi per dati di lavoro (apparecchiature caratterizzate da elevate prestazioni);

Dispositivi utilizzati per l'archiviazione a lungo termine degli archivi.


Archiviazione su nastro

Utilizzato per creare archivi e backup.

I sistemi di archiviazione su nastro sono suddivisi nelle seguenti sottospecie:

Librerie di nastri (due o più unità, molti slot per nastri);

Autoloader (1 drive, slot multipli dedicati ai nastri);

Azionamenti separati.

Principali interfacce di connessione

In precedenza, abbiamo esaminato le principali tipologie di sistemi e ora diamo un'occhiata più da vicino alla struttura dei sistemi di storage stessi. I moderni sistemi di storage sono classificati in base al tipo di interfacce host che utilizzano. Considera di seguito le 2 interfacce di connessione esterne più comuni: SCSI e FibreChannel. L'interfaccia SCSI ricorda l'IDE ampiamente utilizzato ed è un'interfaccia parallela che consente di posizionare fino a sedici dispositivi su un bus (per IDE, come sapete, due dispositivi per canale). La velocità massima del protocollo SCSI oggi è di 320 megabyte al secondo (è attualmente in fase di sviluppo una versione che fornirà una velocità di 640 megabyte al secondo). Gli svantaggi di SCSI sono i seguenti: scomodo, mancanza di immunità al rumore, cavi troppo spessi, la cui lunghezza massima non supera i venticinque metri. Lo stesso protocollo SCSI impone anche alcune restrizioni: di norma, si tratta di 1 iniziatore sul bus più i dispositivi slave (streamer, dischi, ecc.).

L'interfaccia FibreChannel è usata meno comunemente dell'interfaccia SCSI perché l'hardware utilizzato per questa interfaccia è più costoso. Inoltre, FibreChannel viene utilizzato per implementare reti di storage SAN di grandi dimensioni, quindi viene utilizzato solo nelle grandi aziende. Le distanze possono essere praticamente qualsiasi cosa, dai trecento metri standard su apparecchiature tipiche a duemila chilometri per potenti interruttori ("direttori"). Il principale vantaggio dell'interfaccia FibreChannel è la capacità di combinare molti dispositivi di archiviazione e host (server) in una rete SAN comune. Vantaggi meno importanti sono: distanze maggiori rispetto a SCSI, possibilità di aggregazione di link e percorsi di accesso ridondanti, possibilità di apparecchiature "hot plug", maggiore immunità ai disturbi. Vengono utilizzati cavi ottici bipolari unipolari e multimodali (con connettori di tipo SC o LC), nonché trasmettitori ottici SFP realizzati sulla base di emettitori laser o LED (la distanza massima tra i dispositivi utilizzati, nonché la velocità di trasmissione, dipendono da questi componenti).

Opzioni della topologia di archiviazione

Tradizionalmente, lo storage viene utilizzato per connettere i server a un DAS, un sistema di archiviazione dati. Oltre a DAS, ci sono anche NAS - dispositivi di archiviazione che si connettono alla rete, nonché SAN - componenti delle reti di archiviazione. I sistemi SAN e NAS sono stati creati in alternativa all'architettura DAS. Inoltre, ciascuna delle soluzioni di cui sopra è stata sviluppata in risposta alle sempre crescenti esigenze dei moderni sistemi di storage e si è basata sull'utilizzo delle tecnologie allora disponibili.

Le architetture dei primi sistemi di storage di rete sono state sviluppate negli anni '90 per affrontare le carenze più tangibili dei sistemi DAS. Le soluzioni di storage networking sono state progettate per raggiungere gli obiettivi di cui sopra: ridurre i costi e la complessità della gestione dei dati, ridurre il traffico LAN, migliorare le prestazioni complessive e la disponibilità dei dati. Allo stesso tempo, le architetture SAN e NAS risolvono aspetti diversi dello stesso problema comune. Di conseguenza, 2 architetture di rete iniziarono a esistere contemporaneamente. Ognuno di loro ha le sue funzionalità e vantaggi.

DAS


(D diretto UN taccato S torage)- si tratta di una soluzione architetturale utilizzata nei casi in cui un dispositivo utilizzato per la memorizzazione di dati digitali sia connesso tramite protocollo SAS tramite un'interfaccia direttamente ad un server o workstation.


I principali vantaggi dei sistemi DAS sono: basso costo rispetto ad altre soluzioni di storage, facilità di implementazione e amministrazione, scambio di dati ad alta velocità tra il server e il sistema di storage.

I vantaggi di cui sopra hanno consentito ai sistemi DAS di diventare estremamente popolari nel segmento delle piccole reti aziendali, dei provider di hosting e dei piccoli uffici. Ma allo stesso tempo, i sistemi DAS hanno anche i loro inconvenienti, ad esempio l'utilizzo non ottimale delle risorse, spiegato dal fatto che ogni sistema DAS richiede la connessione di un server dedicato, inoltre, ciascuno di questi sistemi consente di connettersi non più di due server su uno scaffale del disco in una determinata configurazione.

vantaggi:

Costo abbordabile. L'archiviazione è essenzialmente un cestino del disco installato all'esterno del server, dotato di dischi rigidi.

Garantire uno scambio ad alta velocità tra il server e l'array di dischi.


Screpolatura:

Affidabilità insufficiente - in caso di incidente o problemi di rete, i server non sono più disponibili per un certo numero di utenti.

Elevata latenza dovuta al fatto che tutte le richieste vengono elaborate da un server.

Mancanza di gestibilità: avere l'intera capacità disponibile su un unico server riduce la flessibilità della distribuzione dei dati.

Utilizzo ridotto delle risorse – La quantità di dati richiesta è difficile da prevedere: alcuni dispositivi DAS in un'organizzazione potrebbero riscontrare capacità in eccesso, mentre altre potrebbero mancare, poiché la riallocazione della capacità è solitamente troppo laboriosa o non è affatto possibile.

NAS


(N opera UN taccato S torage)è un integrato autonomo sistema a disco, che include un server NAS con un proprio sistema operativo specializzato e una serie di funzioni intuitive che forniscono avvio rapido sistema, nonché l'accesso a qualsiasi file. Il sistema è collegato a una normale rete di computer, consentendo agli utenti di questa rete di risolvere il problema della mancanza di spazio libero su disco.

Il NAS è uno storage che si connette alla rete come un normale dispositivo di rete, fornendo l'accesso ai file ai dati digitali. Qualsiasi dispositivo NAS è una combinazione di un sistema di archiviazione e un server a cui è connesso questo sistema. La versione più semplice di un dispositivo NAS è un server di rete che fornisce condivisioni di file.

I dispositivi NAS sono costituiti da un'unità principale che esegue l'elaborazione dei dati e collega anche una catena di dischi in un'unica rete. I NAS forniscono l'uso di sistemi di archiviazione nelle reti Ethernet. La condivisione dell'accesso ai file è organizzata in essi utilizzando il protocollo TCP / IP. Questi dispositivi consentono la condivisione di file anche tra client che eseguono diversi sistemi operativi. A differenza dell'architettura DAS, nei sistemi NAS, i server non possono essere portati offline per aumentare la capacità complessiva; È possibile aggiungere dischi alla struttura NAS semplicemente collegando il dispositivo alla rete.

La tecnologia NAS si sta sviluppando oggi come alternativa ai server universali che svolgono un gran numero di funzioni diverse ( E-mail, server fax, applicazioni, stampa, ecc.). I dispositivi NAS, a differenza dei server universali, svolgono solo una funzione: un file server, cercando di farlo nel modo più rapido, semplice ed efficiente possibile.

La connessione di un NAS a una LAN fornisce l'accesso alle informazioni digitali a un numero illimitato di client eterogenei (ovvero client con diversi sistemi operativi) o altri server. Oggi quasi tutti i dispositivi NAS vengono utilizzati in reti Ethernet basate su protocolli TCP/IP. L'accesso ai dispositivi NAS avviene tramite l'utilizzo di appositi protocolli di accesso. I protocolli di accesso ai file più comuni sono DAFS, NFS, CIFS. All'interno di tali server sono installati sistemi operativi specializzati.

Un dispositivo NAS può sembrare una semplice "scatola" dotata di una porta Ethernet e un paio di dischi rigidi, oppure può essere un enorme sistema dotato di diversi server specializzati, un numero enorme di unità e porte Ethernet esterne. A volte i dispositivi NAS fanno parte di una SAN. In questo caso, non dispongono di unità proprie, ma forniscono solo l'accesso ai dati che si trovano sui dispositivi a blocchi. In questo caso, il NAS funge da potente server specializzato e la SAN funge da dispositivo di archiviazione. In questo caso, un'unica topologia DAS è formata da componenti SAN e NAS.

Vantaggi

Basso costo, disponibilità di risorse per i singoli server, nonché per qualsiasi computer dell'organizzazione.

Versatilità (un server è in grado di servire client Unix, Novell, MS, Mac).

Facilità di implementazione e amministrazione.

Facilità di condivisione delle risorse.


Screpolatura

L'accesso alle informazioni tramite i protocolli del file system di rete è spesso più lento dell'accesso a un disco locale.

I server NAS più convenienti non sono in grado di fornire il metodo di accesso flessibile e ad alta velocità fornito dai moderni sistemi SAN (a livello di blocco, non di file).

SAN


(S torage UN re N opera)- questa soluzione architettonica consente di collegare dispositivi di archiviazione esterni (librerie di nastri, array di dischi, unità ottiche, ecc.) ai server. Con questa connessione, i dispositivi esterni vengono riconosciuti dal sistema operativo come locali. L'utilizzo di una rete SAN riduce il costo totale di manutenzione di un sistema di storage e consente alle organizzazioni moderne di organizzare un'archiviazione affidabile delle proprie informazioni.

L'opzione SAN più semplice è costituita da sistemi di storage, server e switch collegati da canali di comunicazione ottici. Oltre ai sistemi di archiviazione su disco, è possibile collegare alla SAN librerie di dischi, streamer (librerie di nastri), dispositivi utilizzati per archiviare informazioni su dischi ottici, ecc.

Vantaggi

Affidabilità di accesso a quei dati che si trovano su sistemi esterni.

Indipendenza della topologia SAN dai server utilizzati e dai sistemi di archiviazione dati.

Sicurezza e affidabilità dell'archiviazione centralizzata dei dati.

Comoda gestione e commutazione centralizzate dei dati.

La possibilità di spostare il traffico I/O su una rete separata, fornendo l'offload LAN.

Bassa latenza e prestazioni elevate.

Flessibilità e scalabilità della struttura logica SAN.

L'effettiva dimensione geografica illimitata della SAN.

Capacità di distribuire rapidamente le risorse tra i server.

La semplicità dello schema di backup, assicurata dal fatto che tutti i dati si trovano in un unico posto.

La possibilità di creare soluzioni cluster di failover basate su una SAN esistente senza costi aggiuntivi.

Disponibilità di servizi e funzionalità aggiuntivi, come replica remota, snapshot, ecc.

SAN ad alta sicurezza/


L'unico inconveniente di tali soluzioni è il loro costo elevato. In generale, il mercato interno dei sistemi di archiviazione dati è in ritardo rispetto al mercato dei paesi occidentali sviluppati, caratterizzato dall'uso diffuso dei sistemi di archiviazione. Il costo elevato e la mancanza di canali di comunicazione ad alta velocità sono le ragioni principali che ostacolano lo sviluppo del mercato russo dello storage.

RAID

Parlando di sistemi di archiviazione dati, bisogna assolutamente considerare una delle principali tecnologie che stanno alla base del funzionamento di tali sistemi e sono ampiamente utilizzate nel moderno settore IT. Intendiamo array RAID.

Un array RAID è costituito da diversi dischi controllati da un controller e interconnessi tramite canali di trasferimento dati ad alta velocità. Tali dischi (dispositivi di memoria) sono percepiti da un sistema esterno nel suo insieme. Il tipo di array utilizzato influisce direttamente sul grado di prestazioni e tolleranza ai guasti. Gli array RAID vengono utilizzati per aumentare l'affidabilità dell'archiviazione dei dati, nonché per aumentare la velocità di scrittura/lettura.

Esistono diversi livelli di RAID utilizzati durante la creazione di SAN. I livelli più utilizzati sono:

1. Si tratta di un array di dischi con prestazioni migliorate, senza tolleranza agli errori, con striping.
Le informazioni sono suddivise in blocchi di dati separati. Viene registrato contemporaneamente su due o più dischi.

Professionisti:

La quantità di memoria è riassunta.

Aumento significativo delle prestazioni (il numero di dischi influisce direttamente sull'aumento delle prestazioni).


Svantaggi:

L'affidabilità di RAID 0 è inferiore a quella del disco anche più inaffidabile, perché se uno qualsiasi dei dischi si guasta, l'intero array diventa inutilizzabile.


2. - array di mirror del disco. Questo array è costituito da una coppia di dischi che si copiano completamente a vicenda.

Professionisti:

Garantire una velocità di scrittura accettabile durante il parallelo delle query, nonché un aumento della velocità di lettura.

Garantire un'elevata affidabilità: un array di dischi di questo tipo funziona finché almeno 1 disco non funziona al suo interno. La probabilità di guasto di 2 dischi contemporaneamente, che è uguale al prodotto delle probabilità di guasto di ciascuno di essi, è molto inferiore alla probabilità di guasto di un disco. In pratica, se un disco si guasta, è necessario intervenire immediatamente, ripristinando nuovamente la ridondanza. Per fare ciò, si consiglia di utilizzare dischi hot spare con RAID di qualsiasi livello (tranne zero).


Svantaggi:

Lo svantaggio di RAID 1 è che l'utente ne ottiene uno disco fisso al prezzo di due dischi.



3. . Questo è un array RAID 0 costruito da array RAID 1.

4. RAID 2. Utilizzato per gli array che utilizzano il codice di Hamming.

Gli array di questo tipo si basano sull'uso del codice di Hamming. I dischi sono divisi in 2 gruppi: per i dati e anche per i codici utilizzati per la correzione degli errori. I dati sui dischi utilizzati per la memorizzazione delle informazioni sono distribuiti in modo simile alla distribuzione in RAID 0, ovvero sono suddivisi in piccoli blocchi in base al numero di dischi. I restanti dischi memorizzano tutti i codici di correzione degli errori che aiutano a ripristinare le informazioni in caso di guasto di uno dei dischi rigidi. Il metodo Hamming utilizzato nella memoria ECC consente di correggere al volo singoli errori e di rilevare doppi errori.

RAID 3, RAID 4. Questi sono array di dischi con striping, nonché un disco di parità dedicato. In RAID 3, i dati di n dischi vengono suddivisi in componenti di sottosettore (blocchi o byte) e quindi distribuiti su n-1 dischi. I blocchi di parità sono archiviati su un disco. In un array RAID 2, a questo scopo sono stati utilizzati n-1 dischi, tuttavia, la maggior parte delle informazioni sui dischi di controllo è stata utilizzata per correggere gli errori al volo, mentre per la maggior parte degli utenti, in caso di guasto del disco, un semplice è sufficiente il recupero delle informazioni (per questo sono sufficienti le informazioni che si trovano su un disco rigido).

Un array RAID 4 è simile a RAID 3, tuttavia i dati su di esso non sono divisi in singoli byte, ma in blocchi. Ciò ha in parte permesso di risolvere il problema di una velocità di trasferimento dati non sufficientemente elevata con un volume ridotto. Questa scrittura è troppo lenta a causa del fatto che la scrittura genera parità per il blocco, scrivendo su un singolo disco.
A differenza di RAID 2, RAID 3 si differenzia per l'impossibilità di correggere gli errori al volo, nonché per una minore ridondanza.

Professionisti:

I fornitori di servizi cloud acquistano anche attivamente sistemi di archiviazione per le loro esigenze, ad esempio Facebook e Google costruiscono i propri server da componenti già pronti su ordinazione, ma questi server non sono inclusi nel rapporto IDC.

IDC prevede inoltre che i mercati emergenti supereranno presto i mercati sviluppati in termini di consumo di stoccaggio, poiché sono caratterizzati da tassi di crescita economica più elevati. Ad esempio, la regione dell'Europa centrale e orientale, dell'Africa e del Medio Oriente nel 2014 in termini di spesa per i sistemi di storage supererà il Giappone. Entro il 2015, la regione Asia-Pacifico, escluso il Giappone, supererà l'Europa occidentale in termini di consumo di stoccaggio.

La vendita di sistemi di archiviazione dati effettuata dalla nostra azienda "Navigator" offre a tutti l'opportunità di ottenere una base affidabile e duratura per l'archiviazione dei propri dati multimediali. Un'ampia selezione di array Raid, storage di rete e altri sistemi consente di selezionare individualmente per ogni ordine RAID dal secondo al quarto è l'impossibilità di operazioni di scrittura parallela, a causa del fatto che viene utilizzato un disco di parità separato per memorizzare informazioni sulla parità RAID 5 non presenta lo svantaggio di cui sopra. I checksum e i blocchi di dati vengono scritti automaticamente su tutti i dischi, non c'è asimmetria nella configurazione del disco. Per checksum si intende il risultato dell'operazione XOR XOR permette di sostituire qualsiasi operando con il risultato e, utilizzando l'algoritmo XOR, di ottenere come risultato l'operando mancante. Per memorizzare il risultato XOR, è necessario un solo disco (la sua dimensione è identica alla dimensione di qualsiasi disco nel raid).

Professionisti:

La popolarità di RAID5 è principalmente dovuta al suo rapporto costo-efficacia. Le scritture su un volume RAID5 consumano risorse aggiuntive, con conseguente degrado delle prestazioni poiché sono necessari calcoli aggiuntivi oltre alle scritture. Ma durante la lettura (rispetto a un singolo disco rigido) c'è un certo vantaggio, che consiste nel fatto che i flussi di dati provenienti da più dischi possono essere elaborati in parallelo.


Svantaggi:

RAID 5 ha prestazioni molto più lente, specialmente quando si eseguono operazioni di scrittura casuale (come la scrittura casuale), che riducono le prestazioni del 10-25% rispetto a RAID 10 o RAID 0. Questo perché questo processo sono necessarie più operazioni su disco (ogni operazione di scrittura del server sul controller RAID viene sostituita da 3 operazioni: 1 operazione di lettura e 2 operazioni di scrittura). Gli svantaggi di RAID 5 compaiono quando un disco si guasta: in questo caso, l'intero volume entra in modalità critica, tutte le operazioni di lettura e scrittura sono accompagnate da ulteriori manipolazioni, il che porta a un forte calo delle prestazioni. In questo caso il livello di affidabilità scende al livello di affidabilità del RAID 0, equipaggiato con il corrispondente numero di dischi, diventando n volte inferiore all'affidabilità di un singolo disco. Nel caso in cui almeno un'altra unità si guasta prima che l'array venga ripristinato o si verifichi un errore irreversibile su di essa, l'array verrà distrutto e i dati su di esso non possono essere ripristinati utilizzando i metodi convenzionali. Tenere inoltre presente che il processo di ricostruzione con dati RAID ridondanti, chiamato Ricostruzione RAID, dopo che un'unità si guasta, causerà un intenso carico di lettura continuo da tutte le unità che persisterà per molte ore. Di conseguenza, una delle unità rimanenti potrebbe non funzionare. Inoltre, potrebbero essere rilevati errori di lettura dei dati negli array di dati freddi non rilevati in precedenza (i dati a cui non si accede durante il normale funzionamento dell'array - inattivi e archiviati), il che comporta un aumento del rischio di errore durante il ripristino dei dati.



6. è un array RAID 50, che è costruito da array RAID5;

7. - un disk array con striping che utilizza 2 checksum calcolati in 2 modi indipendenti.

RAID 6 è per molti versi simile al RAID 5, ma ne differisce per un grado di affidabilità più elevato: alloca la capacità di due dischi per i checksum, due somme vengono calcolate utilizzando algoritmi diversi. È necessario un controller RAID di capacità superiore. Aiuta a proteggere da guasti multipli garantendo l'operabilità dopo che due unità si guastano contemporaneamente. L'array richiede un minimo di quattro unità. L'utilizzo di RAID-6 comporta in genere un degrado delle prestazioni del gruppo di dischi di circa il 10-15%. Ciò è dovuto alla grande quantità di informazioni che il controller deve elaborare (è necessario calcolare il secondo checksum, nonché leggere e riscrivere più blocchi del disco nel processo di scrittura di ciascuno dei blocchi).

8. è un array RAID 0 costruito da array RAID6.

9. RAID ibrido. Questo è un altro livello di RAID che è diventato abbastanza popolare ultimamente. Questi sono livelli RAID normali utilizzati con software aggiuntivo e SSD utilizzati come cache di lettura. Ciò porta ad un aumento delle prestazioni del sistema, dovuto al fatto che gli SSD, rispetto agli HDD, hanno caratteristiche di velocità molto migliori. Oggi ci sono diverse implementazioni, ad esempio Crucial Adrenaline, oltre a diversi controller Adaptec economici. Attualmente, l'uso di Hybrid RAID non è consigliato a causa delle scarse risorse delle unità SSD.


Le letture in Hybrid RAID vengono eseguite sull'SSD più veloce, mentre le scritture vengono eseguite sia sugli SSD che sugli HDD (questo viene fatto per scopi di ridondanza).
Il RAID ibrido è ottimo per le applicazioni che utilizzano dati di basso livello (computer virtuale, file server o gateway Internet).

Caratteristiche del moderno mercato dello storage

La società analitica IDC nell'estate del 2013 ha pubblicato la sua prossima previsione per il mercato dello storage, calcolata da essa fino al 2017. I calcoli degli analisti mostrano che nei prossimi quattro anni le imprese globali acquisteranno sistemi di storage, la cui capacità totale sarà di cento e trentotto exabyte. La capacità di stoccaggio totale realizzabile aumenterà di circa il 30% all'anno.

Tuttavia, rispetto agli anni precedenti, quando si è verificata una rapida crescita del consumo di storage dei dati, il ritmo di questa crescita rallenterà leggermente, poiché oggi la maggior parte delle aziende utilizza soluzioni cloud, dando la preferenza a tecnologie che ottimizzano lo storage dei dati. I risparmi di spazio di archiviazione si ottengono utilizzando strumenti come la virtualizzazione, la compressione dei dati, la deduplicazione dei dati, ecc. Tutti gli strumenti di cui sopra consentono di risparmiare spazio, consentendo alle aziende di evitare acquisti spontanei e di ricorrere all'acquisto di nuovi sistemi di archiviazione solo quando sono realmente necessari.

Dei 138 exabyte che dovrebbero essere venduti nel 2017, 102 exabyte saranno memoria esterna e 36 exabyte interni. Nel 2012 sono stati implementati venti exabyte di storage per i sistemi esterni e otto per quelli interni. I costi finanziari per i sistemi di stoccaggio industriale aumenteranno di circa il 4,1% all'anno ed entro il 2017 ammonteranno a circa quarantadue miliardi e mezzo di dollari.

Abbiamo già notato che il mercato globale dello stoccaggio, che ha recentemente conosciuto un vero boom, ha iniziato gradualmente a declinare. Nel 2005, la crescita del consumo di stoccaggio a livello industriale è stata del 65% e nel 2006 e 2007 del 59% ciascuno. Negli anni successivi la crescita dei consumi di stoccaggio è ulteriormente diminuita a causa dell'impatto negativo della crisi economica mondiale.

Gli analisti prevedono che la crescita nell'uso del cloud storage porterà a una diminuzione del consumo di soluzioni di storage a livello aziendale. I fornitori di servizi cloud acquistano anche attivamente sistemi di archiviazione per le loro esigenze, ad esempio Facebook e Google costruiscono i propri server da componenti già pronti su ordinazione, ma questi server non sono inclusi nel rapporto IDC.

IDC prevede inoltre che i mercati emergenti supereranno presto i mercati sviluppati in termini di consumo di stoccaggio, poiché sono caratterizzati da tassi di crescita economica più elevati. Ad esempio, la regione dell'Europa centrale e orientale, dell'Africa e del Medio Oriente nel 2014 in termini di spesa per i sistemi di storage supererà il Giappone. Entro il 2015, la regione Asia-Pacifico, escluso il Giappone, supererà l'Europa occidentale in termini di consumo di stoccaggio.

Pronta vendita di sistemi di storage

La vendita di sistemi di archiviazione dati effettuata dalla nostra azienda "Navigator" offre a tutti l'opportunità di ottenere una base affidabile e duratura per l'archiviazione dei propri dati multimediali. Un'ampia selezione di array Raid, storage di rete e altri sistemi consente di selezionare individualmente per ciascun cliente il complesso più adatto a lui.

Ampie capacità tecniche, alfabetizzazione ed esperienza del personale dell'azienda garantiscono un'attuazione rapida e completa dell'attività. Allo stesso tempo, non ci limitiamo alla sola vendita di sistemi di accumulo, poiché ne eseguiamo anche la configurazione, il lancio e il successivo servizio e manutenzione.

Questo articolo si concentrerà sui sistemi di archiviazione entry-level e di fascia media, nonché su quelle tendenze che oggi spiccano chiaramente in questo settore. Per comodità, chiameremo unità di sistemi di archiviazione dati.

In primo luogo, ci soffermeremo brevemente sulla terminologia e sui fondamenti tecnologici delle unità autonome, quindi passeremo alle novità e alla discussione dei risultati moderni in vari gruppi tecnologici e di marketing. Saremo anche sicuri di parlare del motivo per cui sono necessari sistemi di un tipo o dell'altro e di quanto sia efficace il loro utilizzo in diverse situazioni.

Sottosistemi di dischi autonomi

Per comprendere meglio le caratteristiche delle unità autonome, soffermiamoci un po' su una delle tecnologie più semplici per la creazione di sistemi di archiviazione dati: la tecnologia orientata al bus. Prevede l'uso di un involucro per unità disco e un controller RAID PCI.

Figura 1. Tecnologia basata su bus per la creazione di sistemi di archiviazione dati

Pertanto, tra i dischi e il bus PCI host (dall'inglese. Ospite- in questo caso, un computer stand-alone, come un server o una workstation) è presente un solo controller, che determina in gran parte la velocità del sistema. Gli azionamenti costruiti secondo questo principio sono i più produttivi. Ma a causa delle caratteristiche architettoniche, il loro uso pratico, salvo rari casi, è limitato alle configurazioni a host singolo.

Gli svantaggi di un'architettura di archiviazione orientata al bus includono:

  • uso efficiente solo in configurazioni a host singolo;
  • dipendenza dal sistema operativo e dalla piattaforma;
  • scalabilità limitata;
  • possibilità limitate di organizzare sistemi tolleranti ai guasti.

Naturalmente, tutto questo non importa se i dati sono necessari per un server o una workstation. Al contrario, in questa configurazione otterrai le massime prestazioni con il minimo denaro. Ma se hai bisogno di spazio di archiviazione per un data center di grandi dimensioni, o anche per due server che necessitano degli stessi dati, un'architettura orientata al bus è completamente fuori questione. Gli svantaggi di questa architettura vengono evitati dall'architettura dei sottosistemi di dischi autonomi. Il principio di base della sua costruzione è abbastanza semplice. Il controller che gestisce il sistema viene trasferito dal computer host al contenitore dell'unità, consentendo il funzionamento indipendente dai sistemi host. Va notato che un tale sistema può avere un gran numero di canali di I/O esterni, il che rende possibile il collegamento di più o anche più computer al sistema.


Figura 2. Sistema di archiviazione offline

Qualsiasi sistema di archiviazione dati intelligente è costituito da codice hardware e software. In un sistema autonomo c'è sempre una memoria che memorizza il programma degli algoritmi per il funzionamento del sistema stesso e gli elementi del processore che elaborano questo codice. Tale sistema funziona indipendentemente dai sistemi host a cui è connesso. Grazie alla loro intelligenza, le unità autonome spesso implementano da sole molte funzioni di conservazione e gestione dei dati. Una delle funzionalità di base più importanti e quasi universalmente utilizzate è RAID (Redundant Array of Independent Disks). L'altro, che già appartiene ai sistemi di fascia media e di alto livello, è la virtualizzazione. Fornisce funzionalità come la copia istantanea o il backup remoto, nonché altri algoritmi piuttosto sofisticati.

Brevemente su SAS, NAS, SAN

Nell'ambito della considerazione dei sistemi di storage autonomi, è fondamentale soffermarsi sul modo in cui i sistemi host accedono alle unità. Ciò determina in gran parte l'ambito del loro utilizzo e l'architettura interna.

Esistono tre opzioni principali per organizzare l'accesso alle unità:

  • SAS (Server Attached Storage) - unità collegata al server [altro nome DAS (Direct Attached Storage) - unità collegata direttamente];
  • NAS (Network Attached Storage): un'unità collegata a una rete;
  • SAN (Storage Area Network) - rete dell'area di archiviazione.

Abbiamo già scritto delle tecnologie SAS/DAS, NAS e SAN in un articolo dedicato alla SAN, se qualcuno è interessato a queste informazioni vi consigliamo di fare riferimento alle pagine di iXBT. Tuttavia, aggiorniamo un po' il materiale con un'enfasi sull'uso pratico.

SAS/DAS- si tratta di un metodo di connessione tradizionale abbastanza semplice, che prevede una connessione diretta (quindi DAS) di un sistema di storage a uno o più sistemi host tramite un'interfaccia di canale ad alta velocità. Spesso in questi sistemi, l'unità è collegata all'host utilizzando la stessa interfaccia utilizzata per accedere ai dischi interni del sistema host, che generalmente fornisce prestazioni elevate e una facile connessione.

Un sistema SAS può essere consigliato per l'uso se è necessaria l'elaborazione ad alta velocità di grandi volumi di dati su uno o più sistemi host. Questo, ad esempio, può essere un file server, una stazione grafica o un sistema cluster di failover costituito da due nodi.



Figura 3. Sistema cluster con storage condiviso

NAS- un'unità che è collegata a una rete e fornisce l'accesso file (nota - file, non blocco) ai dati per i sistemi host su una rete LAN / WAN. I client che funzionano con il NAS di solito utilizzano i protocolli NSF (Network File System) o CIFS (Common Internet File System) per accedere ai dati. Il NAS interpreta i comandi del protocollo file ed esegue una richiesta alle unità disco in base al protocollo di canale utilizzato in esso. In effetti, l'architettura NAS è un'evoluzione dei file server. Il vantaggio principale di questa soluzione è la velocità di implementazione e la qualità dell'organizzazione dell'accesso ai file, grazie alla specializzazione e al focus ristretto.

Sulla base di quanto sopra, un NAS può essere consigliato per l'uso se è necessario l'accesso in rete ai file e fattori abbastanza importanti sono: semplicità della soluzione (che di solito è una sorta di garanzia di qualità) e facilità di manutenzione e installazione. Un ottimo esempio è l'uso di un NAS come file server in un piccolo ufficio aziendale in cui è importante la facilità di installazione e amministrazione. Ma allo stesso tempo, se hai bisogno di accedere ai file con un largo numero sistemi host, un potente NAS-drive, grazie ad una raffinata soluzione specializzata, è in grado di fornire uno scambio intensivo di traffico con un enorme pool di server e workstation ad un costo abbastanza contenuto dell'infrastruttura di comunicazione utilizzata (ad esempio switch Gigabit Ethernet e doppino intrecciato in rame).

SAN- rete di archiviazione dati. In genere, le SAN utilizzano l'accesso ai dati a blocchi, sebbene sia possibile connettere dispositivi che forniscono servizi di file, come NAS, alle reti di archiviazione. Nelle moderne implementazioni delle reti di storage, viene spesso utilizzato il protocollo Fibre Channel, ma nel caso generale questo non è obbligatorio e, pertanto, è consuetudine individuare una classe separata di SAN Fibre Channel (Reti di storage basate su Fibre Channel) .

La base della SAN è una rete separata dalla LAN/WAN, che serve ad organizzare l'accesso ai dati dai server e dalle postazioni direttamente coinvolte nell'elaborazione. Questa struttura rende la creazione di sistemi ad alta disponibilità e ad alta domanda un compito relativamente semplice. Sebbene le SAN rimangano costose oggigiorno, il TCO (costo totale di proprietà) per i sistemi di dimensioni medio-grandi costruiti utilizzando la tecnologia SAN è piuttosto basso. Una descrizione di come ridurre il TCO dei sistemi di storage aziendali grazie alle SAN è disponibile nelle pagine delle risorse di techTarget: http://searchstorage.techtarget.com .

Oggi, il costo delle unità disco abilitate per Fibre Channel, in quanto interfaccia più comune per la creazione di una SAN, è vicino al costo dei sistemi con interfacce di canale tradizionali a basso costo (come SCSI parallela). La principale componente di costo della SAN rimane l'infrastruttura di comunicazione, nonché il costo della sua implementazione e manutenzione. A questo proposito, nell'ambito della SNIA e di molte organizzazioni commerciali, sono in corso lavori attivi sulle tecnologie di archiviazione IP, che consentono di utilizzare apparecchiature e infrastrutture di rete IP molto più economiche, nonché l'enorme esperienza di specialisti in questo campo.

Esempi per uso efficiente SAN può essere citato parecchio. Quasi ovunque sia necessario utilizzare più server con storage condiviso, è possibile utilizzare una SAN. Ad esempio, per organizzare il lavoro collettivo sui dati video o la pre-elaborazione di prodotti stampati. In una tale rete, ogni partecipante al processo di elaborazione dei contenuti digitali ha l'opportunità di lavorare su Terabyte di dati quasi contemporaneamente. O, ad esempio, organizzare il backup di grandi quantità di dati che vengono utilizzati da molti server. Quando si crea una SAN e si utilizza un algoritmo di backup dei dati indipendente da LAN/WAN e tecnologie "snapshot", è possibile eseguire il backup di quasi tutte le quantità di informazioni senza compromettere la funzionalità e le prestazioni dell'intero complesso di informazioni.

Fibre Channel nelle SAN

È indubbio che oggi è l'FC (Fiber Channel) a dominare le reti di storage. Ed è stato lo sviluppo di questa interfaccia che ha portato allo sviluppo del concetto SAN stesso.

La progettazione di FC ha coinvolto specialisti con una significativa esperienza nello sviluppo di interfacce sia di canale che di rete, che sono riusciti a combinare tutte le importanti caratteristiche positive di entrambe le direzioni. Uno dei vantaggi più importanti del Fibre Channel, insieme ai parametri di velocità (che, tra l'altro, non sono sempre i principali per gli utenti SAN e possono essere implementati utilizzando altre tecnologie) è la capacità di lavorare su lunghe distanze e la flessibilità della topologia , che è entrato nel nuovo standard dalle tecnologie di rete. Pertanto, il concetto di costruzione di una topologia SAN si basa sugli stessi principi delle reti locali tradizionali, basate su hub, switch e router, il che semplifica notevolmente la costruzione di configurazioni di sistema multinodo, comprese quelle senza un singolo punto di errore.

Vale anche la pena notare che all'interno di Fibre Channel, per la trasmissione dei dati vengono utilizzati sia supporti in fibra ottica che in rame. Quando si organizza l'accesso a nodi geograficamente remoti a una distanza fino a 10 chilometri, per la trasmissione del segnale vengono utilizzate apparecchiature standard e fibra monomodale. Se i nodi sono separati da 10 o anche 100 chilometri, vengono utilizzati amplificatori speciali. Quando si costruiscono tali SAN, vengono presi in considerazione parametri non convenzionali per i sistemi di archiviazione dati, ad esempio la velocità di propagazione del segnale in una fibra ottica.

Tendenze di archiviazione

Il mondo dei sistemi di storage è estremamente vario. Le capacità dei sistemi di archiviazione dati e il costo delle soluzioni sono piuttosto differenziati. Esistono soluzioni che combinano la capacità di soddisfare centinaia di migliaia di richieste al secondo con decine e persino centinaia di terabyte di dati, nonché soluzioni per un singolo computer con unità IDE economiche.

RAID IDE

Di recente, il volume massimo delle unità con un'interfaccia IDE è aumentato enormemente ed è circa due volte superiore alle unità SCSI, e se parliamo del rapporto tra prezzo per unità di volume, le unità IDE sono in vantaggio di oltre 6 volte. Questo, sfortunatamente, non ha influito positivamente sull'affidabilità delle unità IDE, ma la loro portata nei sistemi di archiviazione dati autonomi è inesorabilmente in aumento. Il fattore principale di questo processo è che la richiesta di grandi quantità di dati sta crescendo più velocemente del volume dei singoli dischi.

Alcuni anni fa, rari produttori hanno deciso di rilasciare sottosistemi autonomi orientati all'uso di unità IDE. Oggi sono prodotti da quasi tutti i produttori focalizzati sul mercato dei sistemi entry-level. La più grande distribuzione nella classe dei sottosistemi autonomi con unità IDE si osserva nei sistemi NAS entry-level. Dopotutto, se si utilizza il NAS come file server con un'interfaccia Internet veloce o anche Gigabit Ethernet, quindi nella maggior parte dei casi la velocità di tali unità è più che sufficiente e la loro bassa affidabilità è compensata dall'uso della tecnologia RAID.

Laddove è richiesto l'accesso in blocco ai dati a un prezzo minimo per unità di informazioni archiviate, oggi vengono utilizzati attivamente sistemi con dischi IDE interni e con un'interfaccia SCSI esterna. Ad esempio, sul sistema JetStor IDE prodotto dalla società americana AC & NC per la creazione di un archivio fault-tolerant con un volume di dati archiviati di 10 terabyte e la possibilità di bloccare rapidamente l'accesso ai dati, il costo di archiviazione di un megabyte sarà meno di 0,3 centesimi.

Un'altra tecnologia interessante e piuttosto originale, che ho dovuto conoscere abbastanza recentemente, è stata il sistema Raidsonic SR-2000 con un'interfaccia IDE parallela esterna.


Figura 4. RAID IDE entry-level autonomo

Questo è un sistema di dischi autonomo progettato per utilizzare due dischi IDE ed è progettato per essere montato all'interno del case del sistema host. È completamente indipendente dal sistema operativo sulla macchina host. Il sistema permette di organizzare RAID 1 (mirror) o semplicemente copiare i dati da un disco all'altro con la possibilità di dischi hot-swap, senza alcun danno o inconveniente da parte dell'utente del computer, cosa che non si può dire di bus oriented sottosistemi basati su controller PCI IDE RAID.

Da notare che i principali produttori di drive IDE hanno annunciato il rilascio di drive di classe media con interfaccia Serial ATA, che utilizzeranno tecnologie di alto livello. Ciò dovrebbe avere un effetto positivo sulla loro affidabilità e aumentare la quota di soluzioni ATA nei sistemi di archiviazione dati.

Cosa ci porterà Serial ATA

La prima e più piacevole cosa di Serial ATA è il cavo. A causa del fatto che l'interfaccia ATA è diventata seriale, il cavo è diventato rotondo e il connettore è diventato stretto. Se hai mai utilizzato cavi IDE paralleli in un sistema IDE a otto canali, sono sicuro che amerai questa funzione. Naturalmente, i cavi IDE rotondi esistono da molto tempo, ma il loro connettore è rimasto ancora largo e piatto e la lunghezza massima consentita di un cavo ATA parallelo non è incoraggiante. Quando si costruiscono sistemi con grande quantità dischi, la presenza di un cavo standard non aiuta molto, poiché i cavi devono essere realizzati in modo indipendente, e allo stesso tempo la loro posa diventa quasi l'operazione dispendiosa in termini di tempo durante il montaggio.

Oltre alle peculiarità del sistema via cavo, Serial ATA presenta altre novità che non possono essere implementate in modo autonomo per la versione parallela dell'interfaccia tramite coltellino e altri pratici strumenti. Le unità con la nuova interfaccia dovrebbero presto supportare il set di istruzioni Native Command Queuing (command pipelining). Quando si utilizza Native Command Queuing, il controller Serial ATA analizza le richieste di I/O e ottimizza l'ordine della loro esecuzione in modo da ridurre al minimo il tempo di ricerca. La somiglianza dell'idea di Serial ATA Native Command Queuing con l'accodamento dei comandi SCSI è abbastanza ovvia, tuttavia, Serial ATA supporterà una coda fino a 32 comandi, anziché i tradizionali 256 comandi per SCSI. C'è anche un supporto nativo per i dispositivi hot swapping . Naturalmente, tale possibilità esisteva prima, ma la sua implementazione era al di fuori dell'ambito della norma e, di conseguenza, non poteva essere ampiamente adottata. Parlando delle nuove capacità ad alta velocità di Serial ATA, va notato che ora non c'è grande gioia da parte loro, ma la cosa principale qui è che c'è una buona Roadmap per il futuro, che sarebbe molto difficile da implementare all'interno il quadro dell'ATA parallela.

Alla luce di quanto sopra, non c'è dubbio che la quota di soluzioni ATA nei sistemi di storage entry-level dovrebbe aumentare proprio grazie ai nuovi drive Serial ATA e ai sistemi di storage focalizzati sull'utilizzo di tali dispositivi.

Dove va a finire SCSI parallelo

Chiunque lavori con i sistemi di archiviazione, anche quelli entry-level, difficilmente può dire di apprezzare i sistemi con unità IDE. Il vantaggio principale delle unità ATA è il loro prezzo basso rispetto ai dispositivi SCSI e, probabilmente, il livello di rumore più basso. E tutto questo accade per un semplice motivo, poiché l'interfaccia SCSI è più adatta per l'uso nei sistemi di archiviazione dati ed è ancora molto più economica dell'interfaccia ancora più funzionale - Fibre Channel, quindi le unità con un'interfaccia SCSI vengono prodotte di migliore qualità, più affidabile e più veloce rispetto a un'interfaccia IDE economica.

Molti fornitori oggi utilizzano Ultra 320 SCSI, di più nuova interfaccia in famiglia. C'era una volta, molte Roadmap avevano in programma di rilasciare dispositivi con un'interfaccia SCSI Ultra 640 e persino Ultra 1280, ma tutto è andato al punto che qualcosa nell'interfaccia doveva essere cambiato radicalmente. SCSI parallelo già ora, nella fase di utilizzo di Ultra 320, non va bene a molti, principalmente a causa dell'inconveniente dell'utilizzo di cavi classici.

Fortunatamente, di recente è apparsa una nuova interfaccia Serial Attached SCSI (SAS). Il nuovo standard avrà caratteristiche interessanti. Combina alcune delle funzionalità di Serial ATA e Fibre Channel. Nonostante questa stranezza, va detto che c'è del buon senso in un simile intreccio. Lo standard ha avuto origine dalle specifiche fisiche ed elettriche dell'ATA seriale, con miglioramenti come livelli di segnale più elevati per adattarsi alle lunghezze dei cavi e una maggiore indirizzabilità massima del dispositivo. E la cosa più interessante è che i tecnologi promettono di garantire la compatibilità dei dispositivi Serial ATA e SAS, ma solo nelle prossime versioni degli standard.

Le caratteristiche più importanti di SAS includono:

  • interfaccia punto a punto;
  • interfaccia a due canali;
  • supporto per 4096 dispositivi nel dominio;
  • set di comandi SCSI standard;
  • cavo lungo fino a 10 metri;
  • cavo a 4 fili;
  • full duplex.

Grazie al fatto che la nuova interfaccia offre lo stesso connettore miniaturizzato di Serial ATA, gli sviluppatori hanno una nuova opportunità per costruire dispositivi più compatti con prestazioni elevate. Lo standard SAS prevede anche l'uso di extender. Ogni espansione supporterà l'indirizzamento di 64 dispositivi con la possibilità di collegare in cascata fino a 4096 dispositivi all'interno di un dominio. Questo è, ovviamente, significativamente inferiore alle capacità di Fibre Channel, ma per i sistemi di storage entry-level e mid-level, con unità direttamente collegate al server, questo è abbastanza.

Nonostante tutto il fascino, è improbabile che l'interfaccia SCSI Serial Attached sostituisca rapidamente l'interfaccia parallela convenzionale. Nel mondo delle soluzioni aziendali, lo sviluppo tende a essere più completo e naturalmente più lungo rispetto al desktop. Sì, e le vecchie tecnologie non scompaiono molto rapidamente, poiché anche il periodo per il quale si elaborano da sole è piuttosto grande. Tuttavia, nell'anno 2004, i dispositivi con un'interfaccia SAS dovrebbero entrare nel mercato. Naturalmente, all'inizio si tratteranno principalmente di dischi e controller PCI, ma dopo un altro anno anche i sistemi di archiviazione dati recupereranno.

Per una migliore generalizzazione delle informazioni, ti suggeriamo di familiarizzare con un confronto tra interfacce moderne e nuove per sistemi di archiviazione dati sotto forma di tabella.

1 - La norma regola distanze fino a 10 km per fibra monomodale, esistono implementazioni di dispositivi per la trasmissione dati su distanze superiori a 105 m.

2 - Gli hub e alcuni switch FC funzionano all'interno della topologia ad anello virtuale interna e sono disponibili molte implementazioni di switch che forniscono la connessione punto a punto di qualsiasi dispositivo ad essi connesso.

3 - Esistono implementazioni di dispositivi con protocolli SCSI, FICON, ESCON, TCP/I, HIPPI, VI.

4 - Il fatto è che i dispositivi saranno reciprocamente compatibili (questo è ciò che i produttori promettono di fare nel prossimo futuro). Cioè, i controller SATA supporteranno le unità SAS e i controller SAS supporteranno le unità SATA.

Mania di massa per i NAS

Di recente, c'è stato un entusiasmo di massa per le unità NAS all'estero. Il fatto è che con la crescente rilevanza di un approccio alla costruzione orientato ai dati sistemi di informazione l'attrattiva della specializzazione dei file server classici è aumentata e la formazione di una nuova unità di marketing - NAS. Allo stesso tempo, l'esperienza nella realizzazione di tali sistemi è stata sufficiente per un rapido avvio nella tecnologia dei dispositivi di archiviazione collegati alla rete e il costo della loro implementazione hardware è stato estremamente basso. Oggi, le unità NAS sono prodotte praticamente da tutti i produttori di sistemi di archiviazione, inclusi i sistemi entry-level per pochissimi soldi e quelli di medie dimensioni, e persino i sistemi responsabili dell'archiviazione di decine di terabyte di informazioni in grado di elaborare un numero enorme di richieste. Ogni classe di sistemi NAS ha le sue interessanti soluzioni originali.

NAS basato su PC in 30 minuti

Vogliamo descrivere una piccola soluzione entry-level originale. Si può discutere sul valore pratico della sua attuazione, ma non si può rifiutare l'originalità.

In effetti, un'unità NAS entry-level, e non solo entry-level, è abbastanza semplice personal computer con un certo numero di dischi e una parte software che fornisce ad altri partecipanti alla rete l'accesso ai dati a livello di file. Quindi, per costruire un dispositivo NAS, è sufficiente prendere questi componenti e collegarli insieme. Dipende tutto da quanto bene lo fai, lo stesso accesso affidabile e di alta qualità ai dati otterrà gruppo di lavoro, che funziona con i dati a cui si accede dal tuo dispositivo. Tenendo conto di questi fattori, nonché del tempo di implementazione della soluzione, oltre ad alcune ricerche di progettazione, è in fase di costruzione un'unità NAS entry-level.

La differenza tra una buona soluzione NAS entry-level con un personal computer autoassemblato e configurato all'interno del sistema operativo selezionato, se omettiamo ancora il design, sarà:

  • quanto velocemente puoi farlo;
  • con quanta facilità questo sistema può essere riparato da personale non qualificato;
  • quanto bene questa soluzione funzionerà e sarà supportata.

In altre parole, nel caso di una selezione professionale di componenti e dell'esistenza di qualche set di software inizialmente configurato, si può ottenere un buon risultato. La verità sembra banale, lo stesso si può dire di qualsiasi compito risolto secondo lo schema delle soluzioni di componenti già pronte: "hardware" più "software".

Cosa propone di fare l'azienda X? Si sta formando un elenco piuttosto limitato di componenti compatibili: schede madri con tutte le funzionalità integrate necessarie a un server NAS entry-level dischi fissi. Si acquista un connettore IDE installabile su scheda madre Disco FLASH con il software registrato e ottieni un'unità NAS pronta. Il sistema operativo e le utilità scritte su questo disco, una volta caricati, configurano i moduli necessari in modo adeguato. Di conseguenza, l'utente ottiene un dispositivo che può essere controllato sia localmente che in remoto tramite un'interfaccia HTML e fornisce l'accesso alle unità disco ad esso collegate.

Protocolli di file nel NAS moderno

CIFS (sistema di file Internet comune)è un protocollo standard che fornisce l'accesso a file e servizi su computer remoti (incluso Internet). Il protocollo utilizza un modello di interazione client-server. Il client richiede al server di accedere ai file o inviare un messaggio a un programma sul server. Il server soddisfa la richiesta del cliente e restituisce il risultato del suo lavoro. CIFS è uno standard aperto che nasce sulla base del protocollo SMB (Server Message Block Protocol) sviluppato da Microsoft, ma, a differenza di quest'ultimo, CIFS tiene conto della possibilità di grandi timeout, essendo orientato anche all'utilizzo in reti distribuite . Il protocollo SMB è stato tradizionalmente utilizzato in reti locali con sistema operativo Windows per l'accesso ai file e la stampa. CIFS utilizza il protocollo TCP/IP per trasportare i dati. CIFS fornisce funzionalità simili a FTP ( Trasferimento di file Protocol), ma fornisce ai client un controllo migliorato (di tipo diretto) sui file. Consente inoltre di condividere l'accesso ai file tra client utilizzando il blocco e la riconnessione automatica al server in caso di guasto della rete.

NFS (file system di rete)è uno standard IETF che include un file system distribuito e un protocollo di rete. NFS è stato sviluppato da Sun Microsystem Computer Corporation. Inizialmente era utilizzato solo su sistemi UNIX, le successive implementazioni di chat client e server sono diventate comuni in altri sistemi.

NFS, come CIFS, utilizza un modello di interazione client-server. Fornisce l'accesso ai file su un computer remoto (server) per la scrittura e la lettura come se fossero sul computer dell'utente. Le prime versioni di NFS utilizzavano UDP per trasportare i dati, mentre le versioni moderne utilizzano TCP/IP. Affinché NFS possa funzionare su Internet, Sun ha sviluppato il protocollo WebNFS, che utilizza estensioni della funzionalità NFS per funzionare correttamente sul World Wide Web.

DAFS (file system ad accesso diretto)è un protocollo di accesso ai file standard basato su NFSv4. Consente alle attività dell'applicazione di trasferire dati, bypassando il sistema operativo e il suo spazio buffer, direttamente per trasportare risorse, preservando la semantica inerente ai file system. DAFS sfrutta le più recenti tecnologie di trasferimento dati da memoria a memoria. Il suo utilizzo fornisce elevate velocità di I/O di file, CPU e carico di sistema minimi, grazie a una significativa riduzione del numero di operazioni e interruzioni che sono solitamente necessarie durante l'elaborazione dei protocolli di rete. Particolarmente efficace è l'uso del supporto hardware per VI (Virtual Interface).

DAFS è stato progettato per essere utilizzato in un ambiente cluster e server per database e una varietà di applicazioni Internet incentrate sul funzionamento continuo. Fornisce i ritardi di accesso più bassi alle condivisioni di file e ai dati e supporta anche sistemi intelligenti e meccanismi di ripristino dei dati, il che lo rende molto interessante per l'uso in unità NAS di fascia alta.

Tutte le strade portano a IP Storage

Negli ultimi anni sono state introdotte molte nuove entusiasmanti tecnologie nei sistemi di storage di fascia alta e media.

Le reti di archiviazione Fibre Channel sono già oggi una tecnologia abbastanza nota e popolare. Allo stesso tempo, la loro distribuzione di massa oggi è problematica a causa di una serie di funzionalità. Questi includono l'alto costo di implementazione e la complessità della costruzione di sistemi distribuiti geograficamente. Da un lato, queste sono solo caratteristiche della tecnologia di livello aziendale, ma dall'altro, se la SAN diventa più economica e la costruzione di sistemi distribuiti diventa più semplice, questo dovrebbe dare un enorme passo avanti nello sviluppo delle reti di storage.

Nell'ambito del lavoro sulle tecnologie di storage di rete nell'Internet Engineering Task Force (IETF), sono stati creati un gruppo di lavoro e un forum IP Storage (IPS) nelle seguenti aree:

FCIP - Fibre Channel over TCP/IP, un protocollo di tunneling basato su TCP/IP, la cui funzione è quella di collegare SAN FC geograficamente distanti senza alcun impatto sui protocolli FC e IP.

iFCP - Internet Fibre Channel Protocol, un protocollo basato su TCP/IP per la connessione di sistemi di storage FC o reti di storage FC che utilizzano l'infrastruttura IP insieme o al posto degli elementi di commutazione e routing FC.

iSNS - Internet Storage Name Service, un protocollo per il mantenimento dei nomi di archiviazione su Internet.

iSCSI - Internet Small Computer Systems Interface, è un protocollo basato su TCP/IP e progettato per stabilire la comunicazione e il controllo di sistemi di archiviazione, server e client (Definizione SNIA - IP Storage Forum: ).

La più rapida e interessante di queste aree è l'iSCSI.

iSCSI - il nuovo standard

L'11 febbraio 2003 iSCSI è diventato lo standard ufficiale. La ratifica dell'iSCSI influenzerà sicuramente il più ampio interesse per lo standard, che si sta già sviluppando abbastanza attivamente. Lo sviluppo dell'iSCSI spingerà più rapidamente la diffusione delle SAN nelle piccole e medie imprese, poiché l'uso di apparecchiature conformi agli standard e un approccio di servizio (inclusi quelli comuni all'interno delle reti Ethernet standard) renderanno le reti dell'area di archiviazione molto più economiche. Per quanto riguarda l'uso di iSCSI su Internet, oggi FCIP ha già messo radici bene qui e la concorrenza con essa sarà difficile.

Il nuovo standard è stato prontamente supportato da note aziende IT. Ovviamente ci sono avversari, ma quasi tutte le aziende attivamente coinvolte nel mercato dei sistemi entry-level e di fascia media stanno già lavorando su dispositivi abilitati iSCSI. I driver iSCSI sono già inclusi in Windows e Linux, i sistemi di storage iSCSI sono prodotti da IBM, gli adattatori sono prodotti da Intel, HP, Dell, EMC promette di unirsi al processo di padronanza del nuovo standard nel prossimo futuro.

Una delle caratteristiche molto interessanti di iSCSI è che puoi utilizzare non solo carrier, switch e router di reti LAN/WAN esistenti, ma anche normali schede di rete Fast Ethernet o Gigabit Ethernet lato client. È vero, c'è un sovraccarico significativo della potenza del processore del PC che utilizza un tale adattatore. Secondo gli sviluppatori, l'implementazione software di iSCSI può raggiungere le velocità del supporto di trasferimento dati Gigabit Ethernet con un carico significativo, fino al 100% delle moderne CPU. A questo proposito, si consiglia di utilizzare schede di rete speciali che supporteranno i meccanismi per scaricare la CPU dall'elaborazione dello stack TCP.

Virtualizzazione nelle SAN

Un'altra tecnologia importante nella costruzione di unità moderne e reti di archiviazione è la virtualizzazione.

La virtualizzazione dello storage è la rappresentazione delle risorse fisiche in un modo logico e più conveniente. Questa tecnologia consente di distribuire in modo flessibile le risorse tra gli utenti e gestirle in modo efficiente. Nell'ambito della virtualizzazione, vengono implementati con successo la copia remota, lo snapshot, la distribuzione delle richieste di I/O alle unità più adatte in termini di natura del servizio e molti altri algoritmi. L'implementazione di algoritmi di virtualizzazione può essere effettuata sia tramite il drive stesso, sia con l'ausilio di dispositivi di virtualizzazione esterni, oppure con l'ausilio di server di controllo che eseguono software specializzato in sistemi operativi standard.

Questa, ovviamente, è una piccola parte di ciò che si può dire sulla virtualizzazione. Questo argomento è molto interessante ed esteso, quindi abbiamo deciso di dedicargli una pubblicazione separata.

Condividi con gli amici o salva per te:

Caricamento in corso...