1 Publicado por FMJO, LLC dba Infinity I/O Edição Eletrônica Copyright © 2016 FMJO, LLC dba Infinity I/O todos os direitos reservados. Nenhuma parte desta publicação pode ser reproduzida, armazenada em um sistema de recuperação ou transmitida em qualquer forma ou por qualquer meio eletrônico, mecânico, fotocópia, digitalização ou de nenhuma outra maneira sem a permissão por escrito da Infinity I/O. Limite de Responsabilidade/Isenção de Garantia. A utilização deste livro constitui o consentimento às seguintes condições: • Este livro é fornecido \"como está\" apenas para fins informativos, sem qualquer tipo de garantia, expressa ou implícita. A Infinity I/O não será responsável por qualquer perda de lucro ou outros danos comerciais, incluindo, mas não limitado a, danos especiais, indiretos ou outros. • A Infinity I/O reserva-se o direito de fazer alterações neste livro a qualquer momento, sem aviso prévio, e não assume qualquer responsabilidade pelo seu uso.
2 CONTEÚDO Índice Capítulo 1 - Introdução Seção 1 - Uma Breve Perspectiva Histórica sobre o Armazenamento de Dados Seção 2 - Fundamentos do Armazenamento de Dados Seção 3 - Visão Geral do Conteúdo Capítulo 2 - Organização dos Dados Seção 1 - Organizando Dados Seção 2 - Dados Baseados em Objetos Seção 3 - Organizando Big Data Capítulo 3 - Armazenamento em Disco Seção 1 - Introdução às Tecnologias de Armazenamento em Disco Seção 2 - Introdução às Unidades de Disco Rígido Seção 3 - Unidades de Estado Sólido (SSDs) Seção 4 - Unidades Híbridas Seção 5 - Interfaces de Disco Seção 6 - RAID - Random Array of Independent Disks Seção 7 -Cache RAID Seção 8 - Camadas de Armazenamento Seção 9 - Opções de Implantação do SSD Seção 10 - Técnicas de Proteção de Dados Baseadas em Disco Seção 11 - Técnicas de Desduplicação Baseadas em Disco Capítulo 4 - Armazenamento em Fita Seção 1 - Fundamentos de Fitas Seção 2 - Linear Tape Open (LTO) Seção 3 - Dispositivos de Armazenamento em Fita Seção 4 - Multiplexação de Fita e Multi-Streaming Seção 5 - Criptografia de Fita Seção 6 - Compressão de Dados em Fita
3 Capítulo 5 - Armazenamento em Rede Seção 1 - Introdução às Técnicas, Tecnologias e Terminologias de Redes de Armazenamento Seção 2 - Fibre Channel: Terminologia e Componentes Seção 3 - Fibre Channel: Modelos de Arquitetura e Operação Seção 4 - Redes de Armazenamento de Dados Baseadas em Ethernet Seção 5 - Virtualização do Armazenamento em Rede Seção 6 - Armazenamento Conectado à Rede (NAS) Seção 7 - Conectividade Física e Conexão a Distância Capítulo 6 - Tecnologias e Técnicas de Armazenamento de Dados Seção 1 - Introdução às Técnicas, Tecnologias e Terminologias de Proteção de Dados Seção 2 - Técnicas e Tecnologias de Backup em Fita Seção 3 - Replicação de Dados Seção 4 - Proteção Externa de Dados (Off-Site) Seção 5 - Proteção de Dados e Criptografia Seção 6 - Controles de Acesso para Proteção de Dados Seção 7 - Proteção de Dados e 'a Nuvem' Capítulo 7- Armazenamento na Nuvem Seção 1 - Virtualização de Armazenamento Utilizada na Nuvem Seção 2 - Modelos de Armazenamento na Nuvem Seção 3 - Recuperação Pós-Desastres e Backup na Nuvem Seção 4 - Acordos de Nível de Serviços (SLAs) de Armazenamento e a Nuvem
4 Prefácio Este livro é uma nova parte da série de livros educacionais e materiais de treinamento em redes de armazenamento da Infinity I/O, com neutralidade sobre os fornecedores destas tecnologias. O objetivo é fornecer uma visão geral dos fundamentos desta tão importante área de armazenamento de informações. O tema fundamental é o armazenamento de informação e as modernas ciências e tecnologias de computação e rede que estão em constante evolução, proporcionando meios melhores e mais distribuídos de armazenamento de dados de informação. O objetivo deste armazenamento é fornecer acesso altamente seguro e aberto para inúmeras informações de negócios, financeiras, de entretenimento, científicas, legais, governamentais e militares, para que sejam tomadas medidas adequadas e tiradas conclusões em tempo adequado. Com a internet clássica e agora a Internet das Coisas (IoT), a quantidade de ativos de informação está na faixa dos Zettabytes - 1024 - e vai chegar à faixa dos Yottabytes - 1027 - em breve. Os sistemas de armazenamento são fundamentais para o sucesso da maioria das atividades humanas e são, juntamente com sistemas computacionais e redes, meramente ferramentas para conectar usuários (incluindo máquinas) com a informação armazenada e a ser armazenada. Os dispositivos conectados sem fio continuam a crescer exponencialmente. Este livro é uma leitura essencial para usuários, compradores e fornecedores de sistemas de informação e seus principais componentes de armazenamento. Para os \"nativos digitais\" do século 21, este material será direto e fácil de entender. Para os leitores mais antigos, introduz conceitos e metodologias essenciais. O livro é destinado ao leitor não especialista em geral, sem a necessidade de um conhecimento prévio de Ciência da Computação para compreender e utilizar os materiais. O livro segue os princípios da SNIA (Storage Networking Industries Association), tem um posicionamento neutro relacionado aos fornecedores destas tecnologias e, por isso, seu uso é básico por parte de compradores e vendedores. A SNIA é uma organização mundial que promove a compreensão e o uso de redes de armazenamento, bem como fornece exames de certificação para profissionais da indústria. O livro é organizado em seções lógicas com tópicos referenciados. Um sistema de rede de armazenamento é não-linear - não é uma série simples de passos. Os conceitos e tópicos são distribuídos como em qualquer sistema real de grande escala. A FMJO, LLC através de seu DBA Infinity I/O possui uma série de cursos sobre redes de armazenamento que preparam o pessoal técnico para projetar e operar sistemas de armazenamento de grande escala. Também preparamos profissionais para se tornarem certificados e especialistas através de nossos cursos de Fundamentos (SN110), Gestão e Administração de Redes de Armazenamento (SN210), e Planejamento e Design de Rede de Armazenamento (SN310). Edward M. Frymoyer - Editor FMJO, LLC DBA Infinity IO, setembro 2016
5 Tradutores Os seguintes profissionais, relacionados abaixo em ordem alfabética, contribuíram voluntariamente para a tradução desse livro acadêmico de fundamentos de armazenamento em rede, a quem reconhecemos notoriamente por sua dedicação e incansável trabalho: Ayala Ramos Daniel Ferreira Neto Eduardo R. Sugahara M. Lima Eric Anderson Martins Miranda Gustavo Yazbek João Carlos do Nascimento Jocelito Damasceno Jorge Tanaka Marcelo Bazan Vitorino Gomes Marcelo Silveira Marcio Pereira Soares Marco Antonio Carvalho Marcos Onisto Nei Aparecido de Oliveira Rodrigo Paula
6 Capítulo 1 Seção 1 Uma Breve Perspectiva Histórica Sobre o Armazenamento de Dados O Homem Primitivo Usando materiais disponíveis na época, o homem primitivo se comunicava e armazenava dados. Isto era feito tipicamente através de pinturas rupestres. Estas técnicas forneceram um ótimo armazenamento de longo prazo, entretanto deficiente em seu valor de comunicação. Os Egípcios Uma das primeiras revoluções no armazenamento e comunicações de dados veio com os egípcios no uso de pergaminhos de papiro. A portabilidade dos meios de comunicação e o conjunto padrão de caracteres criaram uma comunicação muito melhor, mas exigiram habilidades de leitura e escrita especializadas.
7 A capacidade de armazenamento foi limitada à medida que as mídias pereciam e as técnicas de armazenamento disponíveis não ofereciam uma solução de armazenamento de longo prazo. A replicação ainda era um processo manual e muito especializado. Idade Média As mídias ainda eram frágeis e requeriam habilidades de leitura e escrita que eram dominadas por uma elite. A replicação ainda era um processo manual e muito especializado. Foi necessário julgar quais informações adequadas eram requeridas e de valor para o armazenamento e recuperação a longo prazo. A velocidade de comunicação foi melhorada à medida que o cavalo se tornou um método de transporte, mas a comunicação era, para muitos, de boca em boca.
8 A Imprensa Em seguida veio uma mudança que transformou o mundo - a máquina de impressão - um dos primeiros exemplos de tecnologia disruptiva. As mídias ainda eram frágeis e as habilidades de leitura e escrita originais eram necessárias, mas a replicação era um processo mecânico que poderia ser empreendido por pessoas que não tinham compreensão do conteúdo escrito. Pela primeira vez, poderíamos ter um documento \"padrão\" que fosse repetidamente coerente. Isso permitiu a criação de regras, ortografia e formatos consistentes. A replicação massiva significava que o potencial para armazenamento e recuperação de longo prazo fosse baseado em um número de impressões feitas - algumas cópias podiam sobreviver! Ainda havia a necessidade de se decidir o que era importante ou valioso o suficiente para ser impresso. Este volume reverte o problema que foi inicialmente experimentado - fazer um julgamento de valor sobre o que imprimir e armazenar - agora o desafio é o que e como devemos armazenar tudo.
9 Impactos da Tecnologia Moderna A palavra impressa ou escrita, sendo transportada por cavalo, trem ou navio, manteve-se como principal método de comunicação, com bibliotecas sendo criadas para preservar documentos - até a introdução do telégrafo. O telégrafo cria uma mudança de paradigma para a velocidade de comunicação de dados e o volume de dados sendo comunicado, que aumentou com novos avanços, tais como surgimento do telefone, do rádio e da televisão. Apesar deste enorme salto na velocidade de transmissão, os dados a serem comunicados eram ainda mais fugazes do que os meios de comunicação anteriores, uma vez que os dados transferidos não podiam ser facilmente armazenados ou gravados.
10 A Era Digital A era digital inaugurou a primeira perspectiva real de tecnologia de armazenamento, obtida com avanços na velocidade da comunicação e com grande volume de dados eletrônicos sendo armazenados. O advento de técnicas de gravação magnética de dados, como armazenamento em disco e em fita, tornou-se o meio de armazenamento de dados eletrônico predominante. É aqui que chegamos nos dias de hoje. Sumário Ao longo dos tempos, temos enfrentado os mesmos desafios. Temos enfrentado os desafios de como equilibrar a necessidade de armazenar dados, de comunicar informações, o que devemos registrar, o que vale a pena manter, como manter, por quanto tempo deve durar - e continuamente criando novas maneiras de se conseguir isso. Estes são os mesmos desafios que enfrentamos hoje e, embora a tecnologia que usamos seja cada vez mais complexa, os problemas que estamos tentando resolver mudaram pouco ao longo de milênios.
11 Capítulo 1 Seção 2 Fundamentos do Armazenamento de Dados Introdução O grande volume de dados armazenados está crescendo a um ritmo fenomenal - não apenas para atender às necessidades de negócios, mas refletindo as muitas maneiras que podemos coletar, comunicar e armazenar dados. Os dados móveis, provenientes de dispositivos remotos que já não precisam estar diretamente ligados a um sistema de armazenamento de dados, unem-se a este volume aproveitando a conectividade sem fios que é cada vez mais onipresente. A variedade e o formato dos dados que estamos armazenando também está mudando, impulsionado por mudanças na prática de trabalho, tais como BYOD (Bring Your Own Device - trazer o seu próprio dispositivo) – onde os formatos de dados não são determinados pela corporação, mas pela escolha do dispositivo do empregado (tablet, smart phone, laptop etc.). Uma vez mais, a capacidade de alavancar a conectividade padrão fornecida por redes sem fio permite armazenar grandes volumes e variedades de formatos de dados. O armazenamento de dados fundamenta praticamente todos os aspectos da tecnologia da informação, ainda assim, quando pensamos sobre ele (se é que ainda pensamos sobre ele!) pensamos em discos, cartões de memória, telefones celulares, nuvem e outros dispositivos que acreditamos armazenar e entregar nossos dados quando precisamos. No entanto, como a maioria das coisas na indústria de TI, uma vez que você levanta o capô e olha para dentro, há muito mais complexidade do que parecia haver primeiramente.
12 O que Compreende um Ecossistema de Armazenamento de Dados? Existem essencialmente quatro elementos principais em um ecossistema de armazenamento de dados - dispositivos de armazenamento de dados, conectividade/redes, software e gestão. Dispositivos São essencialmente onde os dados são armazenados - o principal fundamento de um ecossistema de armazenamento de dados. Existem dois tipos principais de dispositivos - dispositivos de gravação eletromagnética (ex: fitas* e unidades de disco rígido*) e dispositivos de estado sólido (ex: unidade de estado sólido*). Embora a sua função principal seja armazenar dados, cada um deles tem as suas próprias técnicas e tecnologias, bem como diferentes características de desempenho e custo. Selecionar o dispositivo correto para atender ao requisito de negócio é um aspecto essencial para configurar e implantar uma solução eficaz.
13 Conectividade/Redes Os dispositivos de armazenamento de dados não têm utilidade a menos que possam ser conectados a servidores que executam um software de aplicações. Existem múltiplas alternativas de conexão - cada uma com suas próprias características de desempenho e custo. Algumas são projetadas para conectar* diretamente o dispositivo de armazenamento ao servidor, enquanto outras permitem que o armazenamento centralizado seja acessado através de uma rede de armazenamento*. Para qualquer pessoa que implemente uma solução de armazenamento, é crucial compreender as alternativas de conectividade e selecionar a que melhor atende às necessidades de negócios da organização.
14 Software Pode não ser intuitivo, mas o software tem um grande papel a desempenhar em um ecossistema de armazenamento de dados. Por exemplo, em um nível mais baixo, o software é usado para tomar decisões sobre como gerenciar e recuperar dados, em que formato os dados estão, etc. Em uma camada mais alta, o software controla nossas funções de backup*, se os dados estão compactados* para economizar o espaço de armazenamento de dados ou até mesmo proteger os dados usando criptografia*. O software é um elemento principal em um ecossistema de armazenamento de dados.
15 Gestão e Controle Sem gestão, o ecossistema de armazenamento de dados permaneceria estático e imutável enquanto o ambiente de negócios de uma empresa é, pela sua própria natureza, dinâmico. A gestão é um requisito fundamental de qualquer ecossistema de armazenamento de dados que necessita ser flexível e capaz de se adaptar para satisfazer requisitos mutáveis. No entanto, a gestão deve ser feita em todo o sistema e não apenas com base numa abordagem componente a componente. Sumário Vamos explorar muitas destas questões em detalhes à medida que avançamos com esta publicação, mas é importante lembrar que todos as partes do ecossistema de armazenamento de dados têm de funcionar em conjunto para que possamos ter uma implantação viável. * Abordado em mais detalhes em outra parte dessa publicação
16 Capítulo 1 Seção 3 Visão Geral do Conteúdo A TI atravessa uma das suas aparentemente intermináveis mudanças de paradigma, impulsionada pelo volume de dados que o mundo está gerando e coletando. Analistas em toda parte estão apresentando números para o crescimento fenomenal de dados que está quase além da compreensão. Alguns destes analistas calculam que mais dados foram gerados nos últimos dois anos do que em toda a história da humanidade e que a taxa de geração de dados está acelerando. Outros analistas, especializados em projetar o volume de dados trafegando em redes, preveem que o tráfego global da Internet em breve excederá o 1 Zettabyte (ZB) (1 ZB = 1 000 Exabytes = 1M Petabytes = 1 000 M Terabytes). Uma das principais fontes deste enorme aumento no volume de dados é a Internet das Coisas (IoT)*. De maneira mais conservadora, os analistas estão prevendo que o número de dispositivos IoT estará entre 50 e 75 bilhões até 2020, e com outros colocando o número em 200 bilhões. Qualquer pessoa que pegue uma revista do setor ou demonstre um mínimo de interesse neste assunto na internet pode encontrar quase tantas previsões quanto quiser – então por que começamos aqui? Bem, a resposta é fácil – todos esses dados devem ser armazenados em algum lugar – e isso cria novos desafios para o armazenamento de dados! A Estrutura Nos capítulos seguintes, cobrimos muitas terminologias, tecnologias e técnicas de uma forma que deve ser fácil para aqueles não conhecedores de armazenamento de dados acompanharem. No entanto, este não é um assunto linear – não há um ponto de partida e de chegada óbvios – uma vez que muitos destes tópicos interagem e, em muitos casos, impactam uns aos outros. Alguns leitores podem ter um conhecimento em uma área, mas não em outra, enquanto outros podem apenas querer juntar tudo. A fim de tornar útil esta publicação, os capítulos são divididos em seções, cada uma abrangendo um tema específico, o que deverá facilitar o acesso do leitor a uma área específica de interesse. O Conteúdo O conteúdo foi criado para ser fácil de ler e seguir, com uso extensivo de diagramas para apoiar o texto. Em muitos casos, analogias são usadas para permitir que questões tecnicamente complexas sejam mais facilmente compreendidas.
17 Com exceção de algum material de código aberto, não há nenhuma menção a fornecedores específicos ou conjuntos de produtos feita ao longo desta publicação. No entanto, as tecnologias e técnicas abrangidas serão incorporadas em diferentes ofertas de fornecedores. O Escopo O conteúdo desta publicação concentra-se em avaliar que o custo real do armazenamento de dados não está nas tecnologias de armazenamento, mas no esforço e conhecimento necessários para implantá-lo de forma eficaz. Cumprir o objetivo de qualquer organização para equilibrar o custo de armazenamento com a demanda por capacidade e desempenho significa alcançar um equilíbrio que requer conhecimento de como uma organização está gerando, usando e armazenando dados. Esta publicação descreve a utilização desta informação para implantar uma solução eficaz de armazenamento de dados e a forma como as tecnologias e técnicas de armazenamento de dados são integradas na solução global de fim a fim. Olhando para o Futuro Quase todas as organizações estão considerando a possibilidade de usar serviços em nuvem como parte de uma solução global de armazenamento de ponta a ponta. Isso introduziu uma nova camada de complexidade e este novo modelo foi coberto para garantir que o leitor possa apreciar como a adoção da \"nuvem\" pode impactar a tomada de decisões de armazenamento de dados. * Abordado em mais detalhes em outra parte dessa publicação
18 Capítulo 2 Seção 1 - Organizando Dados Introdução Antes de podermos considerar que tipo de sistema de armazenamento de dados pode ser necessário em qualquer ambiente de data center, primeiro precisamos entender como os dados que estamos armazenando são organizados. Afinal de contas, se quisermos armazenar dados é importante que tenhamos ponteiros para nos mostrar como encontrá-los novamente quando precisarmos deles. Quando pensamos em armazenamento de dados, muitas vezes consideramos que os dados são pouco mais do que um fluxo de \"1s\" e \"0s\". No entanto, a forma como os dados são estruturados (ou não) em níveis mais elevados pode nos dar indicações importantes sobre o tipo de solução de armazenamento de dados mais apropriada. A estrutura mais familiar que encontramos é o sistema de arquivos que usamos em nossos dispositivos de computação pessoal. Isto é realmente baseado nos antigos sistemas de arquivo de papel que têm servido bem a ambientes de escritório por décadas, ou mesmo séculos, antes que o poder computacional se tornasse disponível. Isto significa que ainda usamos os mesmos padrões de pensamento que eram usados nos gabinetes de arquivos, gavetas dentro dos gabinetes de arquivo e os arquivos dentro destes. Embora este sistema de armazenamento de informações seja familiar, ele tem uma grande desvantagem. Enquanto uma pessoa decide arquivar um documento de uma forma (por exemplo,
19 por data), outra pessoa pode buscar este documento de outra forma (por exemplo, pelo nome de uma empresa). Um exemplo diário disso pode ser encontrado em quase todos os dispositivos de computação pessoal. Neste caso, a forma como os arquivos e pastas são organizados depende das idiossincrasias do indivíduo armazenando os dados e pode não ter sentido para qualquer outro. Mesmo para o indivíduo, isto pode ser um desafio. Quantas vezes você já ouviu alguém dizer \"eu sei que eu tenho isto no meu computador, mas eu não consigo lembrar como nomeei ou em que pasta eu o coloquei!”. Agora multiplique isso para o nível empresarial e você pode ver o tipo de desafios que as organizações estão enfrentando à medida que o volume de dados armazenados aumenta inexoravelmente. A fim de criar uma abordagem padrão para encontrar dados armazenados, a indústria de TI desenvolveu uma série de conceitos organizacionais e ferramentas para ajudar. Estrutura de Dados Existem tipicamente três tipos de organização de dados como referência: dados estruturados, dados não estruturados e dados semiestruturados. Os dados estruturados são facilmente inseridos, armazenados, pesquisados e analisados.
20 Os dados não estruturados não são organizados em um formato que os torne fáceis de acessar e processar. Os dados semiestruturados encontram-se entre os dois anteriores, uma vez que não estão suficientemente organizados para permitir acesso e análise sofisticados. Dados Estruturados Os dados estruturados dependem de se ter um modelo dos tipos de dados de negócios que serão gravados e como eles serão armazenados, processados e acessados. Os dados estruturados requerem campos de dados definidos de diferentes tipos (numérico, moeda, nome, etc.) e restrições à entrada de dados – por exemplo, número de caracteres permitidos, restrições dos termos permitidos (por exemplo, valores como transações em dólares dos EUA são permitidos, mas transações em outra moeda não). Dados estruturados desta maneira são bem adequados para aplicações de banco de dados e são tipicamente gerenciados usando linguagem de consulta estruturada (SQL) – uma linguagem de programação criada para gerenciar e consultar dados em sistemas de gerenciamento de banco de dados relacionais. O SQL é usado para consultar, inserir, atualizar e modificar dados. A maioria das bases de dados relacionais suportam SQL, o que é um benefício para os administradores de banco de dados (DBAs), uma vez que eles muitas vezes suportam bancos de dados em várias plataformas diferentes. O SQL é a coisa mais próxima de uma linguagem de consulta padrão que atualmente existe e é suportado por padrões ANSI, com a maioria das versões comerciais de SQL utilizando extensões para este padrão ANSI. Alguns fornecedores optaram por chamar sua oferta de produtos de SQL Server. Estes são produtos baseados no padrão SQL e são proprietários. Outros fornecedores podem usar a funcionalidade SQL, mas não têm SQL no nome do produto.
21 Dados Não Estruturados Os dados estruturados têm um papel muito útil a desempenhar, mas o mundo real nem sempre se encaixa na normalidade. Ter limites no tipo e quantidade de dados que podem ser usados é uma restrição sobre o quão rica a informação derivada pode ser. Os dados não estruturados, pelo contrário, não são organizados em um formato que facilita o acesso e o processo. No entanto, dados não estruturados podem muitas vezes ser mais ricos em conteúdo. Por exemplo, vamos considerar uma situação médica onde um médico está fazendo anotações sobre um paciente que foi a uma consulta. Os dados estruturados aqui apresentados são fáceis de gerir, analisar e apresentar. No entanto, os dados não estruturados adicionam um monte de informação que seria difícil de estruturar, uma vez que todas as opções possíveis não podem ter uma \"caixa\" de dados estruturados para se encaixar. Na realidade, pouquíssimos dados são completamente não estruturados. Mesmo as coisas que são frequentemente consideradas dados não estruturados, como documentos e imagens, estão estruturados em certa medida. Olhando para o nosso exemplo, mesmo o documento que contém as notas dos pacientes ainda tem informações padrão, como nome, data de nascimento e número médico. Outro exemplo seria a fotografia, onde a organização de imagens pode ser baseada em uma ampla gama de tópicos (configurações de tempo/câmera/assunto/localização, etc.) e com crescimento dos tamanhos das imagens, estes arquivos tornam-se cada vez mais sedentos por capacidade, e difíceis de gerenciar.
22 Dados Semiestruturados É aqui que os dados semiestruturados se encaixam - em algum lugar entre os dois tipos anteriores. Não são organizados de uma forma complexa que torna possível um acesso e análise sofisticados; no entanto, podem ter informações associadas a eles, que permitem que os arquivos sejam identificados e acessados. Isto os torna dados semiestruturados. No entanto, o documento ainda não possui a organização complexa da base de dados, por isso fica aquém de serem dados totalmente estruturados. Na realidade, há uma sobreposição considerável entre as fronteiras das três categorias, que são, por vezes, descritas coletivamente como o contínuo de dados. Tendências dos Dados À medida que os dados se acumulam, torna-se cada vez mais indispensável explorar a informação que eles contêm, a fim de obter uma vantagem nos negócios. No entanto, a maioria dos dados que estão sendo acumulados são dados não estruturados (ou semiestruturados). A maioria dos especialistas concorda que à medida que avançamos, os dados não estruturados serão responsáveis por 80% dos dados armazenados. Se sobrepusermos dados distribuídos (múltiplos sites) ou armazenamento de dados baseados em nuvem, o gerenciamento desses dados não estruturados torna-se um grande desafio que requer uma
23 abordagem diferente. Isto resultou em uma grande mudança para o armazenamento de dados \"baseado em objetos\" (que iremos cobrir mais tarde). Resumo Superar a divisão entre dados estruturados/não estruturados é cada vez mais importante para a eficácia de uma organização. Isto torna a compreensão da diferença entre dados estruturados e não estruturados o ponto de partida para a elaboração de uma solução de armazenamento de dados. Por exemplo, redes de armazenamento de dados (Storage Area Networks: SANs)* podem ser excelentes para dados estruturados, já que suas características de desempenho, resiliência e custo, refletem a importância dos dados para a operação eficaz do modelo tradicional de negócios das organizações. As soluções não estruturadas, tais como armazenamento conectado à rede (Network Attached Storage: NAS)* e armazenamento agrupado*, podem oferecer não apenas soluções de custo eficazes, mas também ter alguma inteligência embutida que pode ajudar no rastreamento de dados não estruturados. * Coberto em mais detalhes em outra parte desta publicação
24 Capítulo 2 Seção 2 - Dados Baseados em Objetos Introdução Há tipicamente três maneiras como dados armazenados podem ser tratados. Dados baseados em \"blocos\", baseados em \"arquivos\" e baseados em \"objetos\". Dados Baseados em Blocos Os dados baseados em blocos são baseados em hardware, normalmente embutidos em dispositivos de armazenamento como discos ou em controladoras, em sistemas com múltiplos discos. A característica que define o dado baseado em blocos é que sua localização em um dispositivo de armazenamento de dados é especificamente definida. Por exemplo, em um cilindro/setor* ou como um endereço de bloco lógico (Logical Block Address: LBA)* em um disco. Dados Baseados em Arquivos Dados baseados em arquivos são muito mais familiares. São definidos por uma hierarquia de pastas específicas - caminhos de arquivos, nomes de arquivos etc. São baseados em software ao invés de hardware e são característicos e inerentes à maioria dos sistemas operacionais.
25 Dados Baseados em Objetos Os dados baseados em objetos também são baseados em software, mas com uma abordagem totalmente diferente. São projetados de forma a fornecer uma solução para o desafio dos sistemas de arquivos face ao crescimento maciço de dados não estruturados que estão sendo coletados e a tendência de se ter armazenamento distribuído (por exemplo, alguns dados armazenados fora do local ou na \"nuvem\"). Por exemplo: um único sistema de arquivos, que vai ter dificuldade para gerenciar alguns Petabytes de dados, jamais gerenciará dezenas de bilhões de arquivos. O armazenamento de objetos é diferente do armazenamento de blocos e de arquivos, uma vez que organiza os dados em recipientes de dados de tamanho flexível chamados objetos. Os objetos são armazenados em um espaço de nomes (do inglês namespace) horizontal que pode abranger vários locais (Um espaço de nomes horizontal significa que cada objeto de dados dentro de um ambiente definido de armazenamento de dados é unicamente identificável).
26 Este nome único pode ser mantido em um diretório central, que pode localizar e buscar os dados solicitados de forma rápida e confiável. Este é praticamente o mesmo processo usado no ciberespaço para permitir que URLs e endereços de e-mail únicos sejam localizados e acessados – mesmo que você não tenha conhecimento de sua localização real. O estacionamento com manobrista é uma boa analogia para o armazenamento de dados baseado em objetos. O manobrista lhe dá um bilhete e depois estaciona seu veículo onde ele pode encontrá- lo novamente, mesmo você não tendo qualquer conhecimento de onde ou como o seu veículo está estacionado. Depois, você fornece o seu bilhete ao manobrista e tem seu carro devolvido, sem precisar saber nada sobre onde o seu carro estava estacionado. Além de fornecer um endereçamento único, o armazenamento de dados baseado em objeto também trata de outro desafio - como obter maior valor a partir destes dados que estão sendo armazenados. A análise de dados em sistemas baseados em arquivos é limitada pela quantidade de metadados disponíveis nestes sistemas. Os sistemas de gerenciamento e de análise de dados não conseguem tirar vantagem dos metadados além da informação básica que um sistema de arquivos armazena e fornece. Este é menos um desafio e mais uma oportunidade perdida, uma vez que os líderes de negócios buscam a TI para conseguir uma melhor análise e valor a partir dos dados armazenados. O armazenamento de dados baseado em objeto lida com isso através da opção de adicionar o que são conhecidos como \"atributos\", os quais podem ser associados a um nome de objeto e aos dados. Isto é conhecido como metadados (dados sobre dados). Estes atributos (metadados) podem ser
27 utilizados para procurar objetos associados através de todos os dispositivos de armazenamento de dados em um único espaço de nomes. Se usarmos o exemplo de notas médicas sugerido anteriormente, podemos ver que o armazenamento baseado em objetos oferece uma estrutura de dados que pode incluir dados não estruturados. Isso nos permite ter capacidade de pesquisa e análise dos dados estruturados juntamente com a informação mais rica que está disponível em dados não estruturados. A vantagem desta abordagem é que os dados podem ser referenciados e consultados com base em qualquer atributo. Os dados no objeto, os atributos (metadados) e até mesmo a localização física podem mudar sem a necessidade de mudar o nome único do objeto. Gerenciando Dados Baseados em Objetos O armazenamento de dados baseado em objetos requer recursos computacionais (referidos como \"plataforma de objeto\") para supervisionar e gerenciar os objetos armazenados. Esta plataforma de objetos deve ter a compreensão adequada para lidar com objetos de diferentes tipos e ter a capacidade de extrair os metadados do objeto para que ele possa entender o que o objeto é, movê- lo para o local de armazenamento apropriado e manter o nível adequado de detalhes dos metadados. Quanto melhor arquitetada a plataforma de objetos é, em termos de suas capacidades de dispersão, mais adequada é para aplicações em nuvem e semelhante a nuvem em que os dados podem ser acessados e analisados a partir de múltiplas localidades. Uma vez que o armazenamento de objetos usa metadados para descrever um arquivo, essa informação pode ser usada para criar políticas automatizadas de gerenciamento de dados. As
28 principais políticas que uma plataforma de objeto deve oferecer incluem a proteção de dados e a eliminação programada de dados. Vantagens do Armazenamento de Dados Baseado em Objetos O armazenamento de dados baseado em objetos está ajudando a resolver os principais desafios associados ao armazenamento, gerenciamento e análise de dados não estruturados. Aqui estão algumas vantagens que o armazenamento baseado em objetos traz: – Os provedores públicos de nuvem adotaram soluções de armazenamento baseadas em objetos que podem chegar a centenas de Petabytes, centenas de bilhões de objetos e mesmo milhões de conexões simultâneas. Isso seria impossível de se conseguir usando as técnicas tradicionais baseadas em arquivos. – Ao fornecer um único espaço de nomes, o armazenamento baseado em objetos permite aos administradores de TI conectar eficientemente aplicações e usuários a dados de uma maneira que seria impossível por meio de gerenciamento e mapeamento entre os sistemas de arquivos. Isso pode permitir a um administrador de TI gerenciar muito mais dados do que era possível anteriormente com sistemas baseados em arquivos – aumentando a eficiência operacional do ambiente de TI. – Com o armazenamento baseado em objetos, as aplicações podem fazer mais uso de metadados – por exemplo, pesquisadores do genoma podem facilmente localizar e acessar sequências que correspondem ao tipo de condição, idade, gênero ou tipo sanguíneo. – Com o armazenamento baseado em objetos, a resiliência pode ser incorporada, uma vez que um objeto pode ser automaticamente replicado e armazenado em vários dispositivos em múltiplos data centers.
29 Opções de Implantação para o Armazenamento de Dados Baseado em Objetos O armazenamento baseado em objetos tem dois grandes modelos de implantação em ambientes de armazenamento de dados atuais - dados armazenados internamente em ambientes privados e dados armazenados em nuvem pública. Os principais casos de uso para armazenamento em ambiente privado e em nuvem pública são: – Arquivos de dados que armazenam objetos maiores com longos períodos de retenção, taxas de transação baixas e acesso tolerante a latência. – Repositórios de mídia com acesso de dados de transmissão para repositórios de objetos grandes, globalmente distribuídos, e grandes taxas de transferência. – Repositórios em rede com bilhões de objetos pequenos e alto volume de transações. – Internet das Coisas (Internet of Things: IoT) - por exemplo, usando sensores sem fio embutidos em colunas de fundação de concreto para garantir a qualidade e integridade de uma estrutura. * Coberto em mais detalhes em outra parte desta publicação
30 Capítulo 2 Seção 3 - Organizando Big Data O que é \"Big Data\" Antes de começarmos a discutir sobre como organizamos o \"Big Data\", é importante entender o que o \"Big Data\" realmente é. Na prática, \"Big Data\" é uma expressão cunhada pela indústria para descrever as enormes quantidades de dados coletados, que são excessivamente grandes e demasiadamente diversificados para serem tratados por processos tradicionais de gerenciamento de dados dentro de um prazo aceitável. Apesar do nome \"Big Data\" dar a impressão de que o desafio está apenas relacionado ao imenso volume de dados, no mundo real, o termo \"Big Data\" também abrange o volume crescente de dados não estruturados que estão sendo coletados, que são difíceis de processar usando técnicas tradicionais de banco de dados e software, e dados que são coletados tão rápido que excedem o poder computacional disponível para processá-los. Quais são as vantagens do \"Big Data\"? Ao analisar \"Big Data\", as organizações são capazes de identificar tendências, correlacionar fontes de informação não relacionadas - tornando-as fáceis de entender e passíveis de ação. Isto pode ajudar as organizações a serem mais inteligentes e mais compreensivas com seus clientes, bem como oferecer uma vantagem competitiva. Um exemplo de como o \"Big Data\" é implantado é a coleta e análise de usuários nas mídias sociais. Uma das oportunidades únicas que as redes sociais oferecem é utilizar todos os dados recolhidos, especialmente sobre potenciais clientes, e depois analisá-los. Empresas de mídia social, como o Facebook, analisam os dados coletados sobre seus usuários e, através de análises, podem otimizar sua experiência e oferecer marketing direcionado para as empresas como um gerador de receitas. O volume, a variedade e a velocidade dos dados gerados exigem novas abordagens tanto para a gestão de dados como para as técnicas de armazenamento de dados.
31 Volume - Variedade - Velocidade Existem alguns termos da indústria utilizados para ilustrar o \"Big Data\" e, por alguma razão, parece haver uma tendência para todos começarem com a letra \"V\". Destes três, os que parecem ser comuns entre fornecedores e organizações da indústria são Volume, Variedade e Velocidade. O Volume é bastante simples: refere-se às vastas quantidades de dados que são coletados. Normalmente, espera-se que o volume de dados que poderia ser chamado de \"Big Data\" estivesse na ordem de Petabytes ou Exabytes compreendendo bilhões ou trilhões de arquivos de várias fontes. A Variedade refere-se ao fato de que as fontes de \"Big Data\" são diversas e não se encaixam em estruturas organizadas. Por exemplo, os dados podem ser textos de redes sociais, imagens ou transmissão diretamente de um sensor. Nenhuma destas fontes vem pronta para fácil processamento por software tradicional.
32 Por exemplo, se olharmos para a navegação na internet, onde podemos esperar que haja algum(ns) padrão(ões) para o intercâmbio de dados, a situação ainda deixa a desejar. Os navegadores variam, as versões de software podem ser diferentes ou, até mesmo, os níveis de detalhe que os usuários inserem para obter acesso a informações baseadas na internet podem variar em tipo e consistência. Assim, as soluções de \"Big Data\" devem ser capazes de lidar com dados estruturados, dados não estruturados, imagens, documentos, texto livre, etc. Isso pode criar um ambiente difícil para se criar soluções de gerenciamento de dados e, consequentemente, implementações eficazes de armazenamento de dados para suportar a solução. Velocidade é usada para se referir à taxa crescente na qual os dados fluem para dentro e para fora de uma organização. Por exemplo, a venda e entrega de produtos e serviços on-line é quase sempre mais automatizada, gerando um fluxo de dados de volta para o fornecedor. Cada clique e interação de um cliente (ou potencial cliente) é usada para compilar um grande número de perfis do interesse do cliente e histórico de compras. Utilizando rapidamente esses dados, alternativas e opções para compras adicionais podem ser feitas - potencialmente aumentando o valor das vendas e ganhando vantagem competitiva. A velocidade é também a capacidade de capturar e armazenar dados de transmissão, que não são processados imediatamente, mas podem ser processados mais tarde. No entanto, algumas entradas de dados são muito rápidas para se armazenar em sua totalidade. A fim de gerenciar esta condição, algum nível de análise deve ocorrer à medida que os dados fluem para dentro. Por exemplo, vamos usar a referência do Grande Colisor de Hádrons (Large Hadron Collider: LHC) no CERN. À medida que as partículas colidem, são gerados e transmitidos tantos dados que nem tudo pode ser capturado. A análise em tempo real dos dados transmitidos à medida em que são coletados permitiu que a grande maioria fosse descartada (sem dúvida com os dedos cruzados esperando que nenhum dado crucial tenha sido descartado como parte do processo). A velocidade também pode se referir à condição em que a análise da transmissão é necessária, porque precisa haver uma resposta imediata ao fluxo de dados. Por exemplo, jogos on-line e aplicativos móveis (ex. apostas em tempo real) não podem aguardar que o fluxo de dados seja armazenado, processado em lote e seu resultado mostrado ao cliente.
33 A Internet das Coisas (Internet of Things: IoT) A Internet das Coisas (IoT) é uma rede de objetos físicos, dispositivos, veículos, edifícios e outras \"coisas\" que incorporam eletrônica, software ou sensores com suporte para conectividade de rede. Todos estes dispositivos coletam e transmitem dados, tipicamente para um sistema central, para coleta, armazenamento e análise. Cada \"coisa\" deve ser identificável de forma única e ser capaz de funcionar dentro da infraestrutura existente da internet. (Alguns peritos estimam que a IoT consistirá em quase 50 bilhões de \"coisas\" até 2020). Exemplos de \"coisas\", no sentido de IoT, incluem o monitoramento de implantes de coração, biochips transmissores em animais de fazenda, ostras elétricas em águas costeiras (monitoramento da qualidade da água utilizando comportamento das ostras como \"biosensores de limpeza\"), automóveis com sensores incorporados, dispositivos de análise de DNA para monitoramento ambiental/alimentício/patogênico ou dispositivos de operação de campo que auxiliam bombeiros em operações de busca e salvamento. Todas essas \"coisas\" coletam dados úteis e então, autonomamente, transmitem os dados para onde possam ser armazenados, analisados e utilizados.
34 Organização e Gestão de \"Big Data\" Quando se trata de organizar \"Big Data\", é fácil seguir o caminho já bem conhecido de crescer o poder computacional, adicionando mais servidores e, quando necessário, distribuir as tarefas através de vários servidores interligados. Isso funciona bem para requisitos de computação intensiva, mas colabora muito pouco com a necessidade do data center de lidar com \"Big Data\".
35 O advento do \"Big Data\" criou ambientes intensivos em dados ao invés de ambientes intensivos em computação. Como estes normalmente envolvem volumes de dados de dezenas, centenas ou milhares de terabytes, a tentação é desenvolver estratégias de armazenamento de dados com base em conjuntos de discos centralizados cada vez maiores. No entanto, a desvantagem é que quanto maiores estes arrays centralizadas se tornam, mais o desempenho geral é restringido pela capacidade de um subsistema de armazenamento centralizado para fornecer dados para o(s) servidor(es). O Google enfrentou este problema e, em 2004, surgiu com uma abordagem única – cortar os dados em peças menores e armazenar essas peças em armazenamento de dados locais em servidores commodity, de baixo custo. Eles chamaram este processo de MapReduce. O conceito do MapReduce é trazer os recursos computacionais para os dados e não os dados para os recursos computacionais (Nota: Uma abordagem semelhante é também adotada pelo HPX de código aberto).
36 MapReduce O termo MapReduce vem de uma concatenação das palavras \"mapear\" e \"reduzir\". \"Mapear\" significa que um servidor principal que executa o software MapReduce decompõe a atividade a ser tratada em partes menores e a distribui para ser processada por servidores secundários que contêm os dados adequados no seu disco local. \"Reduce\" é usado para se referir ao processo empreendido pelo servidor principal para combinar as respostas dos servidores secundários uma vez que eles tenham concluído o seu processamento e produzido um resultado final (esta é essencialmente uma forma de computação em cluster). Hadoop O conceito MapReduce evoluiu para se tornar parte do Hadoop - uma plataforma de software de código aberto licenciada e de propriedade da Apache Software Foundation. A licença é gratuita. O nome Hadoop não tem significado técnico e na verdade se refere ao nome do elefante de brinquedo do qual o logotipo Hadoop é derivado.
37 Hadoop Distributed File System (HDFS) A esta altura você pode estar questionando que não houve nenhuma menção de como o 'Big Data' é cortado em pedaços e distribuído por vários servidores com seu próprio dispositivo de armazenamento. Bem, isto é o que o Hadoop faz em essência. O Hadoop consiste de duas partes - processamento (o Map Reduce) - e armazenamento, o Hadoop Distributed File System (HDFS). O HDFS divide de forma transparente um arquivo em grandes blocos, os quais distribui entre os servidores no cluster - enquanto permanece aparentando ser um único arquivo para o usuário. Cada um destes blocos é replicado para vários servidores no cluster Hadoop de modo que um determinado bloco existe em três servidores independentes. Embora fisicamente quebrado e distribuído três vezes, todas as interações do usuário com o arquivo em HDFS ainda fazem com que ele pareça o mesmo arquivo único que foi inicialmente copiado para o HDFS. A replicação dos blocos de dados é feita para garantir que nenhum dado seja perdido se qualquer servidor no cluster falhar. O HDFS lida com toda a carga de divisão, distribuição e recombinação dos dados de forma transparente para o usuário.
38 Perspectiva de Armazenamento de Dados Então, o que significa tudo isso do ponto de vista do armazenamento de dados? Durante décadas, a consolidação e concentração de dados no menor número possível de silos de armazenamento tem sido a recomendação. A centralização do armazenamento de dados significou que os dados podem ser copiados* corretamente e os sistemas RAID* otimizados para oferecer o máximo de desempenho e confiabilidade em sistemas de armazenamento compartilhado. Então aparece o Hadoop, e esta abordagem se quebra. O Hadoop é executado em um ambiente altamente distribuído com armazenamento de servidor local que dificilmente alcança o conceito corporativo de confiabilidade, disponibilidade e capacidade de serviço. Como vimos, o Hadoop foi projetado para mover a computação para mais perto dos dados e isso não se encaixa bem com as implementações SAN* tradicionais, que têm um custo muito maior por unidade de capacidade de implantação do que pode ser alcançado usando o armazenamento de conexão direta local – DAS* (O conceito Hadoop é baseado em servidores commodities de baixo
39 custo, portanto a adição de custos de conexão de redes de armazenamento pode aumentar esse custo). No entanto, os fabricantes de armazenamento parecem ter uma solução – os sistemas de armazenamento preparados para HDFS. Estes sistemas fornecem suporte nativo a HDFS em seus produtos (normalmente NAS*). A utilização de uma solução de armazenamento preparado para HDFS pode proporcionar uma série de benefícios. Em primeiro lugar, as capacidades de processamento e de armazenamento do servidor podem ser dimensionadas de forma independente, em vez de limitado na capacidade fixa de um servidor. Além disso, o backup pode ser centralizado em torno do dispositivo de armazenamento HDFS, ao invés do backup ter que proteger vários servidores individualmente. Há mais uma maneira na qual o armazenamento pronto para HDFS pode dar uma vantagem: oferecendo proteção de dados sem precisar ter três versões dos mesmos dados distribuídos através de servidores com armazenamento interno. Isto é importante quando estamos falando de \"Big Data\" na ordem dos Petabytes, se não Exabytes – a capacidade de armazenamento necessária se usarmos o armazenamento conectado direto ao servidor pode ser três vezes o tamanho do \"Big Data\" real que está sendo armazenado. Ao fornecer a proteção de dados dentro dos dispositivos de armazenamento preparados para HDFS, a capacidade de reserva necessária pode ser minimizada. A economia na capacidade extra pode ajudar a compensar qualquer custo adicional envolvido na utilização de dispositivos de armazenamento preparados para HDFS. * Cobertos em mais detalhes em outra parte desta publicação
40 Capítulo 3 Seção 1 – Introdução às Tecnologias de Armazenamento em Disco Nós não podemos falar efetivamente sobre armazenamento de dados sem ter uma compreensão básica dos dispositivos e tecnologias que fornecem os blocos básicos de construção deste tipo de solução. Existem muitas outras publicações e cursos de formação disponíveis que abordam estas questões em detalhes tecnicamente, por isso, neste capítulo, vamos nos concentrar em \"o que fornecem\" e \"por que importam\" e não na forma como funcionam. Tradicionalmente temos usado o termo para se referir a uma Unidade de Disco Rígido (HDD) que originalmente era para diferenciá-lo do agora desatualizado disco flexível. No entanto, agora há uma novidade que está rapidamente se tornando padrão - o SSD. Trata-se do SSD ou Solid State Disk (Disco de Estado Sólido), que é basicamente um conjunto de chips de memória apresentados como uma unidade de disco padrão. Embora o SSD tenha um desempenho excepcionalmente alto em comparação com HDDs, eles têm sido tradicionalmente considerados uma alternativa cara, mas a medida em que os preços da memória caem, eles se apresentam agora como um padrão de dispositivos de armazenamento viáveis. Isto tem um impacto além apenas dos dispositivos de armazenamento. Como podemos ver no diagrama, o HDD (disco rígido) tem sido o elemento de mais baixo desempenho do ecossistema uma vez que depende de um dispositivo eletromecânico que acessa dados em termos de milissegundos, enquanto o sistema de conexão, que fornece dados para o servidor, opera na ordem de microssegundos (mil vezes mais rápido) e os servidores em nanossegundos (um milhão de vezes mais rápido). Muitas técnicas foram introduzidas para tentar mascarar as limitações HDD – RAID e a adição de memória cache na frente da unidade de disco por exemplo, mas, essencialmente, o HDD é o fator limitante. Vamos considerar algumas dessas técnicas mais tarde.
41 No entanto, quando substituímos o HDD por um SSD, as limitações dos atrasos eletromecânicos associados ao HDDs desaparecem e o gargalo no ecossistema se move para o sistema de conexão e a tecnologia de interface implantada. Mais uma vez, abordaremos mais sobre este tema mais tarde. Assim, a escolha da tecnologia que implantamos em uma solução pode ser baseada em uma série de fatores, todos inter-relacionados. Vamos então olhar para alguns dos critérios que precisamos conhecer a respeito.
42 Capítulo 3 Seção 2 – Introdução às Unidades de Disco Rígido Um dos meus primeiros mentores me disse uma vez que a única coisa que você precisa saber sobre Discos Rígidos (HDDs) é que \"os discos giram e giram\" e \"as cabeças de leitura entram e saem\". Embora esta seja uma grande super simplificação, ela nos dá um bom ponto de partida. Os fatores que determinam basicamente o desempenho global de um HDD são: – Latência (tempo para o disco girar até a posição correta) – Seek time (Tempo de Busca, tempo para as cabeças se moverem para uma nova posição) – Tipo de conexão do HDD – Velocidade e tamanho de memória buffer Tudo isso terá impacto no desempenho do HDD. Em muitos casos, o impacto no desempenho também pode depender do tipo de dados utilizados. Por exemplo, para dados aleatórios espalhados por diferentes locais no HDD, o tempo de busca e a latência terão o maior impacto. No entanto, se os dados estão gravados sequencialmente no HDD, a latência, a memória buffer e o tipo de conexão pode ter mais impacto. Desempenho Vamos então considerar a questão da latência. A rotação de uma unidade de disco é medida em rotações por minuto, RPM. Em muitos casos, quanto mais rápido o disco gira, menor a sua capacidade de armazenamento.
43 Os discos de classe empresarial normalmente têm uma velocidade de rotação mais alta para melhor desempenho, mas isso pode ter uma contrapartida de uma menor capacidade. No entanto, a escolha pode variar em todos os ecossistemas em um data center, que podem implantar vários tipos diferentes de unidades para combinar aplicações que têm diferentes requisitos de acesso a dados. Por exemplo, os requisitos de processamento de banco de dados e de transações usam HDDs de velocidade de rotação mais alta (baixa capacidade de armazenamento em disco), enquanto aplicativos que exigem acesso a arquivos grandes, como backup, podem optar por velocidades de rotação menores, mas com maior capacidade de armazenamento em disco. Fator de Forma Existem dois fatores de forma principais (o tamanho físico do HDD) - 2,5\" e 3,5\". Os HDDs de 2,5\" são em algum momento referidos como fator de forma pequeno (Small Format Factor ou SFF), enquanto os HDDs de 3,5\" são referidos como fator de forma grande (Large Format Factor ou LFF). As medidas de 2,5\" e 3,5\" representam aproximadamente o diâmetro dos discos dentro dos compartimentos das unidades, em vez de qualquer referência ao fator de forma real dos HDD. Os compartimentos para montagem de HDDs normalmente têm um comprimento e largura padrão. Pode variar em altura, até 15 mm para formato pequeno (SFF) e até 26,1 mm para formato grande (LFF). Em muitos casos, a latência (movimento da cabeça do disco) e o fator de forma de HDDs SFF tendem a ser características de discos para notebooks onde a energia é escassa, e os HDDs LFF normalmente são montados em um gabinete onde existe disponibilidade de energia elétrica. Como resultado, os HDDs SFF tipicamente são otimizados para um menor consumo de energia e, como resultado, a energia disponível para mover as cabeças é reduzida – aumentando latência e diminuindo o desempenho. Latência A tecnologia HDD continua a evoluir com novas técnicas, tais como preenchimento interno do disco com gás hélio e alteração da forma como os dados são gravados na superfície do disco, levando capacidades para 10TB, sendo que muitas técnicas ortodoxas permitem capacidades de até 8TB. No entanto, na maioria dos casos, os aumentos de capacidade incorrem em um desempenho inferior. Os HDDs continuarão a ser dispositivos eletromecânicos e, como tal, terão sempre problemas de desempenho em comparação com outras tecnologias – mas o seu custo/benefício continuará a mantê-los atraentes para demandas de alta capacidade de armazenamento de dados e de baixa prioridade.
44 Capítulo 3 Seção 3 - Unidades de Estado Sólido (SSDs) Vamos abordar o SSD (Unidade de Estado Sólido). Um SSD é um conjunto de chips de memória, substituindo de maneira efetiva os mecanismos eletromagnéticos usados em HDDs. Como resultado, o SSD apresenta-se como um HDD super-rápido. Gargalo Os SSDs mantiveram muitos dos recursos dos HDDs para garantir o máximo de retrocompatibilidade - por exemplo, o fator de forma (tamanho e formato), os conectores e os tipos de interface. Este suporte para a retrocompatibilidade tem facilitado a adoção dos SSDs, mas também cria uma desvantagem pois os tipos de interface e conectividade não foram projetados para funcionar nas velocidades dos SSDs, criando potenciais gargalos. As opções de conexão e interface que viabilizam sistemas de armazenamento consolidado de SSDs estão evoluindo. Abordaremos estas questões detalhadamente mais tarde.
45 SSD no Servidor Uma maneira de evitar esses gargalos é colocar o SSD no servidor - reduzindo os tempos de entrega de dados no servidor pois as latências da conexão dos sistemas e protocolos de interface são evitados. Os SSDs conectados ao servidor também podem ser uma opção menos cara, mas estes dispositivos normalmente não suportam recursos de alta disponibilidade encontrados em sistemas baseados em array de discos, tais como RAID, snapshots, etc. Se estas características não forem necessárias, esta abordagem simples pode ser competitiva em termos de preço. As implementações de SSD nos servidores podem ser usadas para direcionar o desempenho do SSD para aplicações especificas. Normalmente, apenas um número limitado de aplicações provavelmente exigirá o nível de desempenho de um SSD. Em um ambiente de nuvem, vincular o desempenho do SSD a servidores ou aplicações individuais permite um modelo de charge-back, onde os usuários de aplicações que precisam do maior desempenho dos SSDs podem ser associados a um servidor ou aplicação específicos. Esta maneira facilita uma abordagem granular ao charge-back. A maioria das organizações já tem sistemas de armazenamento bem construídos e centralizados que foram configurados para garantir a segurança e confiabilidade dos seus dados, minimizando a complexidade operacional e otimizando os custos. Em contraste, com o SSD implantado em um servidor, nós estamos movendo para um modelo descentralizado no qual os dados primários residem em servidores individualizados. Este servidor baseado em SSD pode se tornar um ponto único de falha, onde, se o SSD falhar, dados serão perdidos. Isto exigirá a criação de novos sistemas de backup e outros sistemas de proteção de dados, fazendo com que o custo de implementação de alta disponibilidade torne esta solução cada vez mais cara. Além disso, quando o servidor baseado em SSD é usado como armazenamento primário, é difícil compartilhar os dados com outros servidores. Para aplicações em que o compartilhamento de
46 dados não é necessário, ou que o compartilhamento de dados é feito em um nível mais elevado pelo software do sistema, isso provavelmente torna-se irrelevante. Desvantagem Ao contrário do HDD, um desafio para a adoção do SSD é que ele tem um número finito de vezes em que os dados podem ser escritos antes que o desempenho se torne problemático. Devido à natureza da operação do SSD, os dados não podem ser sobrescritos diretamente como pode ser feito em um HDD. Quando os dados são primeiramente escritos em um SSD, a área da memória que vai receber os dados deve ser apagada antes que novos dados possam ser escritos. Como resultado, a quantidade real de informação física escrita nos chips de memória é um múltiplo da quantidade de dados a ser escrita, porque a memória deve ser apagada antes que possa ser reescrita. Este efeito multiplicador aumenta o número de escritas realizadas ao longo da vida do SSD, fato este que encurta o tempo que ele pode operar de forma confiável. O aumento do número de escritas também consome largura de banda de memória interna que pode impactar o desempenho de escrita no SSD. Resumo sobre o SSD Os fatores econômicos de soluções baseadas em SSD são melhores quando os requerimentos de energia de armazenamentos são considerados. As unidades SSDs normalmente requerem menos energia para funcionar e resfriar comparado aos HDDs e, com o custo de energia dos data centers geralmente sendo um dos três maiores custos operacionais de TI, qualquer redução no orçamento de TI é bem-vinda. Como resultado, os SSDs, apesar de seu custo inicial de capital, estão desfrutando altos níveis de adoção - impulsionados por demandas intensivas de dados (por exemplo, computação em nuvem, \"Big Data\", computação pessoal/móvel e Internet das coisas) que exigem níveis cada vez mais elevados de desempenho, escalabilidade e agilidade. Como os preços dos SSDs continuam a cair, eles cada vez mais se tornam um rival para os HDDs em soluções de armazenamento de dados primários. O preço varia para cada fornecedor baseando- se nas suas configurações e se o produto disponibiliza tecnologias de redução de dados, tais como desduplicação e compressão, que tem impacto direto no preço. Isto dificulta as comparações de preços entre os produtos que usam SSD e isto deve ser abordado com precaução para garantir que não estamos comparando maçãs com laranjas. A longo prazo, o SSD irá inevitavelmente oferecer uma mudança na economia de armazenamento de dados, mas é improvável que vejamos a completa substituição do HDD.
47 Capítulo 3 Seção 4 Unidades Híbridas Apenas para completar o conjunto, devemos entender o significado do termo unidade híbrida. Uma unidade híbrida, como o nome sugere, combina tecnologia SSD com HDD, a fim de criar um equilíbrio entre a velocidade do SSD e o custo-benefício do HDD. Existem duas tecnologias principais que você pode encontrar, que são usadas para a implementação de unidades híbridas - sistemas híbridos dual-drive e unidades híbridas de estado sólido. Dual-Drive Os sistemas híbridos dual-drive combinam dispositivos separados SSD e HDD que se parecem com um único volume para o software do sistema. O software de sistema gerencia as otimizações globais de desempenho tanto pelo usuário do computador, colocando manualmente dados mais frequentemente acessados em um SSD, como pelo software do sistema do host, criando um volume híbrido único, combinando as capacidades do SSD e do HDD. Este processo é transparente para o usuário final. A gestão de desempenho é feita via software do host, driver de dispositivo, ou uma combinação de ambos (exemplo: Intel Smart Response Technology).
48 Unidade Híbrida de Estado Sólido (SSHD) O SSDH refere-se a produtos que incorporam memória flash em um HDD e opera como um único dispositivo integrado. O SSHD funciona com a identificação automática dos dados acessados com mais frequência e armazenando-os na memória flash. Isto proporciona um desempenho significativamente melhor do que o HDD padrão. Decisões sobre quais dados são priorizados para memória rápida podem ser diferentes de fornecedor para fornecedor e podem ser alcançadas através do firmware do dispositivo, através de drivers de dispositivo ou através de uma combinação de módulos de software e drivers de dispositivo.
49 Capítulo 3 Seção 5 - Interfaces de Disco Existem muitas especificações para interfaces de discos HDD e SSD. Estes têm características distintas de desempenho e custo. As interfaces mais prováveis de se ouvir dentro de um contexto de um data center moderno são Fibre Channel* (FC), SAS e SATA. HDDs Dois tipos de interface surgiram como dominante - SAS (Serial Attached SCSI) e SATA (Serial ATA). Ambas interfaces SAS e SATA são conexões seriais baseadas na tecnologia precursora que operava em paralelo (SCSI e ATA). O uso de técnicas seriais viabiliza taxas de transferência mais rápidas e reduz o número de conexões, mantendo a compatibilidade de software com as gerações anteriores. O Fibre Channel (FC) é outra opção de interface serial. Os discos FC têm sido uma opção para servidores e arrays de armazenamento de grande porte, mas seu custo relativo tem sido uma barreira para altos níveis de adoção. Os custos para a implantação de unidades FC têm permanecido elevados pela necessidade de ter um HBA* (Host Bus Adapter) FC para permitir que a unidade se comunique com um servidor ou um controlador de host em um array. Qualquer custo adicional de implantação de Fibre Channel pode ser justificado em função da necessidade de rápido acesso aos dados para o negócio. Um exemplo disso é uma transação financeira de alta velocidade onde cada nanossegundo pode ser crítico. Existem alguns movimentos para se introduzir um novo tipo de interface de disco - FATA (FC- ATA). FATA é simplesmente uma conversão de unidade de disco de baixo custo ATA ou SATA
Search
Read the Text Version
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43
- 44
- 45
- 46
- 47
- 48
- 49
- 50
- 51
- 52
- 53
- 54
- 55
- 56
- 57
- 58
- 59
- 60
- 61
- 62
- 63
- 64
- 65
- 66
- 67
- 68
- 69
- 70
- 71
- 72
- 73
- 74
- 75
- 76
- 77
- 78
- 79
- 80
- 81
- 82
- 83
- 84
- 85
- 86
- 87
- 88
- 89
- 90
- 91
- 92
- 93
- 94
- 95
- 96
- 97
- 98
- 99
- 100
- 101
- 102
- 103
- 104
- 105
- 106
- 107
- 108
- 109
- 110
- 111
- 112
- 113
- 114
- 115
- 116
- 117
- 118
- 119
- 120
- 121
- 122
- 123
- 124
- 125
- 126
- 127
- 128
- 129
- 130
- 131
- 132
- 133
- 134
- 135
- 136
- 137
- 138
- 139
- 140
- 141
- 142
- 143
- 144
- 145
- 146
- 147
- 148
- 149
- 150
- 151
- 152
- 153
- 154
- 155
- 156
- 157
- 158
- 159
- 160
- 161
- 162
- 163
- 164
- 165
- 166
- 167
- 168
- 169
- 170
- 171
- 172
- 173
- 174
- 175
- 176
- 177
- 178
- 179
- 180
- 181
- 182
- 183
- 184
- 185
- 186
- 187
- 188
- 189
- 190
- 191
- 192
- 193
- 194
- 195
- 196
- 197
- 198
- 199
- 200
- 201
- 202
- 203
- 204
- 205
- 206
- 207
- 208
- 209
- 210
- 211
- 212
- 213
- 214
- 215
- 216
- 217
- 218
- 219
- 220
- 221
- 222
- 223
- 224
- 225
- 226
- 227
- 228
- 229
- 230
- 231
- 232
- 233
- 234
- 235
- 236
- 237
- 238
- 239
- 240
- 241
- 242
- 243
- 244
- 245
- 246
- 247
- 248
- 249
- 250
- 251
- 252
- 253
- 254
- 255
- 256
- 257
- 258
- 259
- 260