O servizo de almacenamento de datos que porporciona o Cesga está orientado ao almacenamento e tratamento de información de altas prestacións, grandes volumes de datos e alta dispoñibilidade e o acceso desde calquera ordenador conectado á rede Internet.Para poder facer uso do servizo de almacenamento é preciso dispoñer dunha conta de usuario nos servidores do CESGA, para o cal, se non se dispón dela, é preciso completar e enviar firmado o formulario de alta de usuario.
O seguinte paso consiste en cumplimentar o formulario de solicitude do servizo de almacenamento, para o cal haberá que determinar a cantidade de información que se desexa almacenar e cales son as características desta información. Co fin de orientar ó usuario do servizo nesta clasificación, recomendamos ler o apartado seguinte para a clasificación de sistemas do CESGA a través do teléfono 981 569 810 ou da dirección de e-mail .
Unha vez enviado o formulario de solicitude do servizo, o CESGA porase en contacto con vostede para informarlle das características do sistema de almacenamento que se pon á súa disposición, e de como pode comezar a utilizalo desde ese momento.
Criterios para a clasificación da información no servizo de almacenamento
Co fin de responder ás crecentes demandas en cantidade e calidade do servizo nos sistemas de almacenamento, así como ás diferentes opcións de almacenamento dispoñibles no mercado, é preciso levar a cabo unha clasificación dos tipos de datos co obxectivo de axeitar os distintos servizos de almacenamento ás necesidades específicas de cada grupo de información. Estas clasificacións poden responder a criterios como cantidade de información, nivel de dispoñibilidade requerido, seguridade e control de aceso, etc., tendo en conta a diversidade de datos aos que dá servizo o Centro de Supercomputación de Galicia, establecemos a seguinte lista de criterios principais para clasificar a información:
- Nivel de dispoñibilidade e tolerancia a erros: en donde indicaremos a criticidade dos datos identificando aqueles datos que deberán estar “sempre dispoñibles” nun extremo da escala a “dispoñibles ocasionalmente” no outro extremo da escala. “Sempre dispoñibles” pode identificar datos críticos para o funcionamento dos servizos 24x7x365 e “Dispoñibles ocasionalmente” aqueles que deban accederse unicamente baixo demanda. Entre ambos extremos, existen situacións nas cales se permiten ventás de tempo de non dispoñibilidade dos datos (4 horas, 8 horas, etc.). Debemos resaltar que por dispoñibilidade non nos estamos referindo á velocidade de aceso ós datos, senón que deben ser robustos fronte a calquera tipo de problemas que poidan presentar no sistema (o que en termos informáticos se denomina tolerancia a erros, e que finalmente nos determinará o máximo número de SPOF ou puntos únicos de erro. Dentro desta clasificación poderiamos por exemplo establecer un nivel Alto (con acesos múltiples aos datos e sistemas de redundancia de datos tipo RAID), medio (con solucións RAID, pero sen redundancia de compoñentes) e baixo (sen nengún tipo de RAID nin de redundancia por compoñentes).
- Periodicidade das copias de seguridade: estará determinada en boa medida pola frecuencia con que se modifican os datos. Poden ser diarias, semanais, facerse baixo demanda ou cando se introduza nova información, por exemplo, ou non levarse a cabo en absoluto, naqueles casos nos que o almacenamento dos datos xa supoña unha copia de seguridade dos datos.
- Conectividade: definida cando menos por dous parámetros de rendemento: o ancho de banda de aceso e a latencia; e polo medio utilizado (por exemplo, se pode ser compartido ou conectado “en quente” aos nosos servidores) e a distancia de alcance. Os propios interfaces de conexión (mediante fibra óptica, os diferentes buses SCSI, ou as conexións a través de redes de área local ou extensa utilizando protocolos NFS ou CIFFS) definen en boa medida estes parámetros, pero non deben ester pechados a eles (por exemplo utilizando interfaces SCSI é posibel ampliar o ancho de banda utilizando múltiples HBAs para aceder ao mesmo volume de información).
- Capacidade de almacenamento: Este parámetro identificará a cantidade de almacenamento que poden requerir os datos. Os valores absolutos non son represetnativos para este parámetro, xa que no ámbito temporal, pouca cantidade de información pode referirse a unhas decenas de Megabytes hoxe end día, mentres que esa mesma cantidade hai apenas unha década representaba un volume moi alto de información. Por iso, utilizaremos porcentaxes referenciadas á capacidade máxima dispoñible en cada momento para este parámetro.
- Compartición: en función de que os datos deban ser acedidos desde diferentes hosts e/ou por diferentes comunidades de usuarios dentro ou fóra do propio centro.
Á vista dos anteriores parámetros, pode pensarse con razón que a especificación dun deles condiciona en boa medida ós outros (é dicir, non representan un conxunto estrictamente ortogonal). Sen embargo, debe terse en conta que o que pretendemos nesta etapa é separar as necesidades de almacenamento das tecnoloxías dispoñibles para, unha vez especificados estes requisitos, buscar a mellor tecnoloxía que en cada momento cumpla os requisitos. Por exemplo, fai uns anos, para obter anchos de banda elevados era necesario realizar conexións directas entre o almacenamento e o sistema que o ía utilizar, mentres que hoxe en día co desplegue das redes de banda ancha (incluso en entornos WAN) xa non é preciso cumplir este requisito.
Ademais destes criterios, poderían introducirse outros como temporabilidade dos datos (é dicir, se son datos cuxa presencia debe ser perpetua ou que polo contrario se reemplacen continuamente), seguridade e confidencialidade da información, etc., que poden ser realmente importanes pero que tamén suporían aumentar o número de clases excesivamente. Tendo en conta que adoitan ser factores secundarios, dentro de algúns tipos concretos de datos poderán establecerse posteriormente subcategorías en aqueles casos máis significativos.
Clasificación da información no CESGA
Atendendo a estes criterios, realizamos unha clasificación da información dispoñible nos servidores de cálculo e almacenamiento en 4 tipos:
- Tipo 1 ou SCRATCH: De moi alto rendemento (moi baixa latencia e máximo ancho de banda), posto que afecta ao rendemento dos sistemas de cálculo do centro, e capacidade media (en función do número de traballos simultáneos que deba soportar), xa que os datos se almacenan unicamente mentres dure a execución dos cálculos. A súa disponibilidade pode ser baixa (xa que son datos temporais) e non é necesario realizar backups por este mesmo motivo.
- Tipo 2 ou directorios home: Contendo datos susceptibles de ser analizados e modificados en calquera momento e críticos, xa que da súa dispoñibilidade depende o funcionamento dos servizos de cálculo do centro. Por tanto deben ter como prioridade a dispoñibilidade (máxima) e un axeitado balance entre capacidade (media, en función do número de usuarios), e rendemento (medio), e do cal se realizan backups de forma diaria.
- Tipo 3 ou almacenamento masivo de datos (MSS): utilizados para almacenar bases de datos e resultados de experimentos, normalmente non varían o seu contenido (adoitan ser do tipo WORM) e a súa velocidade de aceso non adoita ser crítica, aínda que si requiren dun elevado ancho de banda de aceso aos servidores, xa que poden ser o lugar onde se almacenen resultados de experimentos. A realización dos backups pode ser llevada a cabo baixo demanda, debido a que o seu contido tan só se modifica esporadicamente. Exemplos deste tipo de datos son os resultados da predición meteorolóxica diaria ou as bases de datos utilizadas en xenómica.
- Tipo 4 ou backups (internos e externos) a disco: Son copias de datos que os usuarios realizan dos seus propios servidores ou os seus ordenadores personais, nos sistemas de almacenamento do CESGA, para dispoñer dunha copia de seguridade dos seus datos. Deste tipo de datos xa non é necesario realizar backups (eles mesmos son “o” backup), a dispoñibilidade do servizo pode ser baixa. O servizo é ofrecido a través da rede (interna ou externa) polo que o tipo de conexión non requiere dun rendemento alto (o pescozo de botella situase na interconexión do usuario final co almacenamento). A capacidade pode ser baixa ou media, en función do número de usuarios ou centros aos que se dé servizo.
- Tipo 5 ou SCRATCH PARALELO: De moi alto rendemento (moi baixa latencia e máximo ancho de banda), similar ao Tipo 1 co engadido de que os datos scratch compartense entre tódolos nodos do cluster e están repartidos entre eles, o que permite aumentar o ancho de banda de acceso aos ficheiros e a capacidade total do scratch por riba da capacidade do disco local. A súa dispoñibilidade pode ser moi baixa debido a que depende de moitos compoñentes que non están redundados e non se realizan backups destes datos.
|
Dispoñibilidade
|
Backups (periodicidade)
|
Conectividade
|
Capacidade
|
Compartición ou accesibilidade
|
Tipo 1
Scratch
|
Baixa
|
NON
|
Baixa latencia, máximo ancho de banda
|
Media (20%)
|
Sen compartir
|
Tipo 2
Directorio Home
|
Máxima (del depende o funcionamento do sistema)
|
Diaria
|
Media (arquitecturas estándar, FC)
|
Media (30%)
|
Entre todos os nodos do mesmo sistema ou cluster
|
Tipo 3
MSS
|
Media
|
On-demand
|
Rede intranet ou FC, para alcanzar a máxima compartición con altos anchos de banda internos
|
Máxima (90%)
|
Alta, interna ao centro e esporadicamente externa
|
Tipo 4
Backups
|
Baixa
|
Sen backup
|
Rede, intranet e internet, con anchos de banda medios
|
Baixa (10%)
|
Máxima, inclúe sistemas internos e externos
|
Tipo 5
Scratch Paralelo
|
Baixa
|
Non
|
baixa latencia, máximo ancho de banda
|
Alta (50%)
|
Sen compartir |
|