Solicitamos su permiso para obtener datos estadísticos de su navegación en esta web. Si continúa navegando consideramos que acepta el uso de cookies. OK | Política de cookies | Política de Privacidad
Tradución xerada automaticamente.

O serviço de armazenamento de dados que proporciona o Cesga está orientado ao armazenamento e tratamento de informação de altas prestações, grandes volumes de dados e de alta disponibilidade e o acesso desde qualquer computador conectado à rede Internet.

  • Critérios para a classificação da informação no serviço de armazenamento

Robot de cintas

Com o fim de responder às crescentes demandas em quantidade e qualidade de serviço nos sistemas de armazenamento, bem como às diferentes opções de armazenamento disponíveis no mercado, é necessário levar a cabo uma classificação dos tipos de dados com o objetivo de adecuar os diferentes serviços de armazenamento às necessidades específicas a cada grupo de informação. Estas classificações podem responder a critérios como quantidade de informação, nível de disponibilidade requerido, segurança e controlo de acesso, etc.... Tendo em conta a diversidade de dados aos que dá serviço o Centro de Supercomputación da Galiza, estabelecemos a seguinte lista de critérios principais para classificar a informação:

  • Nível de disponibilidade e tolerância a falhas: em onde indicaremos a criticidad dos dados identificando aqueles dados que deverão estar “sempre disponíveis” em um extremo da escala a disponíveis “ocasionalmente” no outro extremo da escala. “Sempre disponíveis” pode identificar dados críticos para o funcionamento de serviços 24x7x365 e “disponíveis ocasionalmente” aqueles que devam se aceder unicamente baixo demanda. Entre ambos extremos, existem situações nas quais se permitem janelas de tempo de não disponibilidade dos dados (4 horas, 8 horas, etc...). Devemos ressaltar que por disponibilidade não nos estamos a referir à velocidade de acesso aos dados senão a que devem ser robustos em frente a qualquer tipo de problemas que se possam apresentar no sistema (o que em termos informáticos se denomica tolerância a falhas, e que finalmente determinar-nos-á o máximo número de SPOF ou pontos únicos de falha). Dentro desta classificação poderíamos por exemplo estabelecer um nível Alto (com acessos múltiplos aos dados e sistemas de redundância de dados tipo RAID), médio (com soluções RAID, mas sem redundância de componentes) e baixo (sem nenhum tipo de RAID nem de redundância de componentes)..

  • Periodicidad das cópias de segurança: Estará determinada em boa medida pela frequência com que se modificam os dados. Podem ser diárias, semanais, fazer-se baixo demanda quando se introduza nova informação, por exemplo, ou não se levar a cabo em absoluto, naqueles casos nos que o armazenamento dos dados já suponha uma cópia de segurança dos dados.

  • Conectividade: Definida por ao menos dois parâmetros de rendimento: o largo de banda de acesso e a latencia; e pelo médio utilizado (por exemplo, se pode ser partilhado ou conectado “em quente ” a novos servidores) e a distância de alcance. As próprios interfaces de conexão (mediante fibra óptica, os diferentes autocarros SCSI, ou as conexões a traves de redes de área local ou extensa utilizando protocolos NFS ou CIFFS) definem em boa medida estes parâmetros, mas não devem estar fechados a eles (por exemplo, utilizando interfaces SCSI é possível alargar o largo de banda utilizando múltiplas HBAs para aceder ao mesmo volume de informação).
  • Capacidade de armazenamento: Este parâmetro identificará a quantidade de armazenamento que podem requerer os dados. Os valores absolutos não são representativos para este parâmetro, já que no âmbito temporário, pouca quantidade de informação pode referir a umas dezenas de Megabytes hoje em dia, enquanto esta mesma quantidade faz mal uma década representava um volume muito alto de informação. Por isso, utilizaremos percentagens referidos à capacidade máxima disponível na cada momento para este parâmetro.

  • Compartición: em função de que os dados devam ser acedidos desde diferentes hosts e/ou por diferentes comunidades de utentes dentro ou fora do próprio centro.

À vista dos anteriores parâmetros, pode pensar-se com razão que a especificação de um deles condiciona em boa medida aos outros (isto é, não representam um conjunto estritamente ortogonal). No entanto, deve ter-se em conta que o que pretendemos nesta etapa é separar as necessidades de armazenamento das tecnologias disponíveis para, uma vez especificados estes requisitos, procurar a melhor tecnologia que na cada momento cumpra os requisitos. Por exemplo, faz em uns anos, para obter largos de banda elevados era necessário realizar conexões diretas entre o armazenamento e o sistema que o ia utilizar, enquanto hoje em dia com o despliegue de redes de banda larga (inclusive em meios WAN), já não é necessário cumprir este requisito.

Além destes critérios, poderiam introduzir-se outros como temporabilidad dos dados (isto é, se são dados cuja presença deve ser perpétua ou que pelo contrário se substituam continuamente), segurança e confidencialidade da informação, etc., que podem ser realmente importantes mas que também suporiam aumentar o número de classes excessivamente. Tendo em conta que costumam ser fatores secundários, dentro de alguns tipos concretos de dados, poderão se estabelecer posteriormente subcategorias naqueles casos mais significativos.

  • Classificação da informação no CESGA

Atendendo a estes critérios, realizamos uma classificação da informação disponível e os servidores de cálculo e armazenamento em 4 tipos:    

  • Tipo 1 ou SCRATCH: De muito alto rendimento (muito baixa latencia e máximo largo de banda), já que afeta ao rendimento dos sistemas de cálculo do centro, e capacidade média (em função do número de trabalhos simultâneos que deva suportar), já que os dados se armazenam unicamente enquanto dure a execução dos cálculos. A sua disponibilidade pode ser baixa (já que são dados temporários) e não é necessário realizar backups por este mesmo motivo.
  • Tipo 2 ou diretórios home: Contendo dados suscetíveis de ser analisados e modificados em qualquer momento e críticos, já que da sua disponibilidade depende o funcionamento dos serviços de cálculo do centro. Por tanto devem ter como prioridade a disponibilidade (máxima) e um adequado balanço entre capacidade (média, em função do número de utentes), e rendimento (médio), e do qual se realizam backups de forma diária.
  • Tipo 3 ou armazenamento em massa de dados (MSS): utilizados para armazenar bancos de dados e resultados de experimentos, normalmente não variam o seu ontenido (costumam ser do tipo WORM) e a sua velocidade de acesso não costuma ser crítica, embora sim requerem de um elevado largo de banda de acesso aos servidores, já que podem ser o local onde se armazenem resultados de experimentos. A realização dos backups pode ser levada a cabo baixo demanda, como o seu conteúdo só se modifica esporadicamente. Exemplos deste tipo de dados são os resultados da prediccion meteorológica diária ou os bancos de dados utilizados em genómica.
  • Tipo 4 ou backups (internos e externos) a disco: São cópias de dados que os utentes realizam dos seus próprios servidores ou os seus computadores pessoais, nos sistemas de armazenamento do CESGA, para dispor de uma cópia de segurança dos seus dados. Deste tipo de dados já não é necessário realizar backups (eles mesmos são “o” backup), a disponibilidade do serviço pode ser baixa. O serviço é oferecido através da rede (interna ou externa) pelo que o tipo de conexão não requer de um rendimento alto (o pescoço de garrafa se situa na interligação do utente final com o armazenamento). A capacidade pode ser baixa ou média, em função do número de utentes ou centros aos que se de serviço.
  • Tipo 5 ou SCRATCH PARALELO: De muito alto rendimento (muito baixa latencia e máximo largo de banda), similar ao Tipo 1 com o acrescentado de que os dados scratch se compartilham entre todos os nós do cluster e estão repartidos entre eles, o que permite aumentar o largo de banda de acesso aos ficheiros e a capacidade total do scratch acima da capacidade do disco local. A sua disponibilidade pode ser muito baixa como depende de muitos componentes que não estão redundados e não se realiza backups destes dados.
 
  • Disponibilidade
  • Backups (periodicidad)
  • Conectividade
  • Capacidade
  • Compartición ou acessibilidade

Tipo 1

Scratch

Baixa NÃO Baixa latencia, máximo largo de banda Média (20%) Sem compartilhar

Tipo 2

Diretório Home

Máxima (dele depende o funcionamento do sistema) Diária Média (arquiteturas regulares, FC) Média (30%) Entre todos os nós do inclusive sistema ou cluster
Tipo 3 MSS Média On-demand Rede intranet ou FC, para atingir a máxima compartición com altos largos de banda internos Máxima (90%) Alta, interna ao centro e esporadicamente externa
Tipo 4 Backups Baixa Sem *backup Rede, intranet e internet, com largos de banda médios Baixa (10%) Máxima, inclui sistemas internos e externos
Tipo 5 Scratch Paralelo Baixa NÃO Baixa latencia, máximo largo de banda Alta (50%) Sem compartilhar