Continuidade de negócio usando a cloud

Beatriz Oliveira
SysAdminas

--

A continuidade de negócio ou Business Continuity, em inglês, tem como objetivo construir meios para minimizar ao máximo o impacto de eventos inesperados, como uma falha em um data center, queda de uma aplicação, ou até mesmo um ataque hacker.

É importante frisar que sempre vão ocorrer problemas e falhas, independente do tamanho da organização. Inclusive, vimos recentemente um grande incidente envolvendo até mesmo o Facebook, que costuma ser referência com suas arquiteturas escaláveis e altamente disponíveis e distribuídas. Segundo uma matéria do site Gizmodo, no dia 04 de outubro de 2021, o Facebook, Instagram, WhatsApp e Messenger ficaram fora do ar por seis horas no mundo inteiro devido a uma “interrupção no tráfego de rede”.

O impacto desse incidente foi bem grande, e todos os dias acontecem diversos problemas em aplicações de todos os setores, sejam eles de grande, médio ou pequeno porte. Por isso, é necessário que a cada vez que uma falha aconteça, ela sirva de aprendizado para que as empresas possam sempre construir soluções que tenham um bom nível de disponibilidade e escalabilidade, evitando impactar de maneira negativa os seus clientes e, consequentemente, o negócio. Esta construção é um processo contínuo, porque além da tecnologia estar em constante transformação, existem invasores que estão sempre criando novas maneiras de quebrar os mecanismos de segurança implementados nas empresas. Além disso, também podem ocorrer falhas em processos internos que sempre podem causar algum incidente.

A seguir, vamos detalhar alguns conceitos e meios que podem ser usados para que as empresas construam a base das suas estratégias de continuidade de negócio.

Alta Disponibilidade, Recuperação de Desastres e Tolerância à Falha

A alta disponibilidade ou high availability (HA), em inglês, foca em eliminar pontos de falha através da redundância de processos e recursos. Já a recuperação de desastres ou disaster recovery (DR), em inglês, é o processo de restabelecer um sistema ao estado operacional quando ele vier a ficar inoperante. Assim o disaster recovery deve ser executado quando a high availability falhar.

Estes serviços devem estar alinhados às necessidades de negócio da empresa através da definição dos Acordos de Níveis de Serviço (ANS) ou Service Level Agreement (SLA), em inglês, os quais são atribuídos conforme a exigência de disponibilidade dos serviços de TI.

Também é importante que tanto os ambientes de data center quanto as aplicações sejam arquitetadas para terem tolerância a falhas ou, em inglês, Fault Tolerance (FT). Neste modelo, o sistema deve continuar operando apesar de haver falha em um ou mais componentes.

Redundância

O conceito de redundância é primordial quando se pensa em desenhar uma arquitetura de sistemas ou soluções. Para começar a montar esta estratégia, é necessário ter em mente que para cada componente que estiver hospedado em um data center deverá haver uma réplica dele em outro data center, podendo ser em outra zona de disponibilidade ou até mesmo em outra região.

Alguns exemplos de estratégia que você pode seguir são:

  • Deixar apenas os recursos de um data center funcionando, enquanto o outro fica totalmente desligado. Neste modelo, você precisará fazer uma virada manual caso o data center principal venha a falhar;
  • Deixar os dois ambientes sempre funcionando, desde que o data center secundário fique em standby, operando com menos recursos. No entanto, pelo fato de ele já estar operante, em caso de falha, você pode habilitar o processo de scaling para subir o restante do ambiente;
  • Deixar os recursos executando nos dois data centers ao mesmo tempo, assim você sempre estará preparado para momentos de falha.
  • Todos estes mecanismos utilizados para minimizar as indisponibilidades dos serviços de TI precisam ser bem planejados para que sua implementação seja transparente e flexível, a ponto de ser possível adequá-los conforme a demanda do negócio. Os investimentos nestes meios de alta disponibilidade, tolerância à falha e redundância dependerão do nível de complexidade para manter o ambiente online.

Backup e Restauração de dados

Com a adoção crescente da nuvem, é importante entender sobre as responsabilidades, tanto do provedor de serviços quanto do cliente, além de conhecer as soluções de backup e recuperação de dados que são fornecidas junto com a contratação dos serviços na nuvem.

É possível utilizar serviços de backup básicos ou avançados e isso irá determinar qual investimento financeiro será necessário na hora da contratação. Vale lembrar que a responsabilidade do dado que fica hospedado na nuvem geralmente é do cliente, por isso é de extrema importância avaliar bem as ofertas para que elas atendam as necessidades do negócio.

No mercado, existem vários players que oferecem solução de backup para os serviços na nuvem, como Veeam, Avamar e Veritas. Entretanto, o cliente também pode avaliar as opções que são oferecidas nativamente pelos cloud providers. Usando a nuvem, o esforço para fazer a configuração de backups costuma ser relativamente simples, porém é primordial testar com frequência o processo de restauração desses dados, pois não basta somente fazer configurações que permitam seu armazenamento, mas também é necessário entender como funciona o processo de recuperação, para evitar surpresas desagradáveis em momentos de crises.

A escolha da solução de backup ideal vai depender de fatores como:

  • Necessidades do negócio;
  • Regulamentações (dependendo do setor);
  • Política de retenção;
  • Recuperação de dados definida pelo cliente;
  • Budget disponível, entre outros.

Por fim, além de todos os conceitos já citados neste capítulo, é importante ressaltar que os provedores de cloud pública vêm cada vez mais aumentando suas estratégias de disponibilidade, seja construindo data centers em mais regiões, aumentando as zonas de disponibilidade e até mesmo oferecendo soluções nativas para a execução de Disaster Recovery as a Service (DRaaS), o que facilita cada vez mais a experiência dos usuários da nuvem no que diz respeito a manter a disponibilidade e escalabilidade de suas soluções, viabilizando, assim, a continuidade dos negócios.

Esse texto faz parte do Guia da Guia da Computação em Nuvem: Conceito, Prática & Capacitação publicado no Medium, no LeanPub, e na Open Library. Para checar todos os capítulos, clique aqui e acesse a Introdução.

Próximo capítulo: Estratégias de migração para a cloud

--

--

Beatriz Oliveira
SysAdminas

Learning and sharing knowledge about technology and diversity. | thebeaoliveira.com