Esta es la antigua web del Centro de Supercomputación de Galicia.

Nuestro nuevo web está disponible desde el 18 de Julio de 2011 en
https://www.cesga.es

Por favor, actualice sus enlaces y marcadores.


Esta web solo se mantiene con el fin de servir como histórico de noticias, cursos, ofertas de empleo publicadas, etc.. y/o documentación.

CESGA-Centro de Supercomputación de Galicia
Galego :: Español :: English
Centro de Supercomputacion de Galicia
Inicio » Servicios » Almacenamiento de datos
Destacados

Conectados
390 visitantes
Total desde 21-12-05: 75371711 visitas
ISO 9001:2008

EXCELENCIA GESTIÓN

Accesibilidad

Almacenamiento de datos PDF E-mail
El servicio de almacenamiento de datos que proporciona el Cesga está orientado al almacenamiento y tratamiento de información de altas prestaciones, grandes volúmenes de datos y de alta disponibilidad y el acceso desde cualquier ordenador conectado a la red Internet.

Para poder utilizar el servicio de almacenamiento es necesario disponer de una cuenta de usuario en los servidores del CESGA, para lo cual, si no se dispone de ella, es neceario rellenar y enviar completado y firmado el formulario de alta de usuario.

El siguiente paso consiste en cumplimentar el formulario de solicitud del servicio de almacenamiento, para lo cual habrá que determinar la cantidad de información que se desea almacenar y cuáles son las características de esta información. Con el fin de orientar al usuario del servicio en esta clasificación, recomendamos leer el apartado siguiente para la clasificación de la información y, en caso de dudas, contactar con el departamento de sistemas del CESGA a través del teléfono 981 569 810 o de la dirección de e-mail .

Una vez enviado el formulario de solicitud del servicio, el CESGA se pondrá en contacto con usted para informarle de las caracterísitcas del sistema de almacenamiento que se pone a su disposición, y de cómo puede comenzar a utilizarlo desde ese momento.

Criterios para la clasificación de la información en el servicio de almacenamiento

Con el fin de responder a las crecientes demandas en cantidad y calidad de servicio en los sistemas de almacenamiento, así como a las diferentes opciones de almacenamiento disponibles en el mercado, es necesario llevar a cabo una clasificación de los tipos de datos con el objetivo de adecuar los distintos servicios de almacenamiento a las necesidades específicas cada grupo de información. Estas clasificaciones pueden responder a criterios como cantidad de información, nivel de disponibilidad requerido, seguridad y control de acceso, etc.... Teniendo en cuenta la diversidad de datos a los que da servicio el Centro de Supercomputación de Galicia, hemos establecido la siguiente lista de criterios principales para clasificar la información:

  • Nivel de disponibilidad y tolerancia a fallos: en donde indicaremos la criticidad de los datos identificando aquellos datos que deberán estar “siempre disponibles” en un extremo de la escala a “disponibles ocasionalmente” en el otro extremo de la escala. “Siempre disponibles” puede identificar datos críticos para el funcionamiento de servicios 24x7x365 y “disponibles ocasionalmente” aquellos que deban accederse únicamente bajo demanda. Entre ambos extremos, existen situaciones en las cuales se permiten ventanas de tiempo de no disponibilidad de los datos (4 horas, 8 horas, etc...). Debemos resaltar que por disponibilidad no nos estamos refiriendo a la velocidad de acceso a los datos sino a que deben ser robustos frente a cualquier tipo de problemas que se puedan presentar en el sistema (lo que en términos informáticos se denomica tolerancia a fallos, y que finalmente nos determinará el máximo número de SPOF o puntos únicos de fallo). Dentro de esta clasificación podríamos por ejemplo establecer un nivel Alto (con accesos múltiples a los datos y sistemas de redundancia de datos tipo RAID), medio (con soluciones RAID, pero sin redundancia de componentes) y bajo (sin ningún tipo de RAID ni de redundancia de componentes).
  • Periodicidad de las copias de seguridad: Estará determinada en buena medida por la frecuencia con que se modifican los datos. Pueden ser diarias, semanales, hacerse bajo demanda cuando se introduzca nueva información, por ejemplo, o no llevarse a cabo en absoluto, en aquellos casos en los que el almacenamiento de los datos ya suponga un copia de seguridad de los datos.

  • Conectividad: Definida por al menos dos parámetros de rendimiento: el ancho de banda de acceso y la latencia; y por el medio utilizado (por ejemplo, si puede ser compartido o conectado “en caliente” a nuevos servidores) y la distancia de alcance. Los propios interfaces de conexión (mediante fibra óptica, los diferentes buses SCSI, o las conexiones a traves de redes de área local o extensa utilizando protocolos NFS o CIFFS) definen en buena medida estos parámetros, pero no deben estar cerrados a ellos (por ejemplo, utilizando interfaces SCSI es posible ampliar el ancho de banda utilizando múltiples HBAs para acceder al mismo volumen de información).

  • Capacidad de almacenamiento: Este parámetro identificará la cantidad de almacenamiento que pueden requerir los datos. Los valores absolutos no son representativos para este parámetro, ya que en el ámbito temporal, poca cantidad de información puede referirse a unas decenas de Megabytes hoy en día, mientras que esta misma cantidad hace apenas una década representaba un volumen muy alto de información. Por ello, utilizaremos porcentajes referenciados a la capacidad máxima disponible en cada momento para este parámetro.

  • Compartición: en función de que los datos deban ser accedidos desde diferentes hosts y/o por diferentes comunidades de usuarios dentro o fuera del propio centro.

A la vista de los anteriores parámetros, puede pensarse con razón que la especificación de uno de ellos condiciona en buena medida a los otros (es decir, no representan un conjunto estrictamente ortogonal). Sin embargo, debe tenerse en cuenta que lo que pretendemos en esta etapa es separar las necesidades de almacenamiento de las tecnologías disponibles para, una vez especificados estos requisitos, buscar la mejor tecnología que en cada momento cumpla los requisitos. Por ejemplo, hace unos años, para obtener anchos de banda elevados era necesario realizar conexiones directas entre el almacenamiento y el sistema que lo iba a utilizar, mientras que hoy en día con el despliegue de redes de banda ancha (incluso en entornos WAN), ya no es necesario cumplir este requisito.

Además de estos criterios, podrían introducirse otros como temporabilidad de los datos (es decir, si son datos cuya presencia debe ser perpetua o que por el contrario se reemplacen continuamente), seguridad y confidencialidad de la información, etc., que pueden ser realmente importantes pero que también supondrían aumentar el número de clases excesivamente. Teniendo en cuenta que suelen ser factores secundarios, dentro de algunos tipos concretos de datos, podrán establecerse posteriormente subcategorías en aquellos casos más significativos.


Clasificación de la información en el CESGA

Atendiendo a estos criterios, realizamos una clasificación de la información disponible e los servidores de cálculo y almacenamiento en 4 tipos:

  • Tipo 1 o SCRATCH: De muy alto rendimiento (muy baja latencia y máximo ancho de banda), puesto que afecta al rendimiento de los sistemas de cálculo del centro, y capacidad media (en función del número de trabajos simultáneos que deba soportar), ya que los datos se almacenan únicamente mientras dure la ejecución de los cálculos. Su disponibilidad puede ser baja (ya que son datos temporales) y no es necesario realizar backups por este mismo motivo.

  • Tipo 2 o directorios home: Conteniendo datos susceptibles de ser analizados y modificados en cualquier momento y críticos, ya que de su disponibilidad depende el funcionamiento de los servicios de cálculo del centro. Por tanto deben tener como prioridad la disponibilidad (máxima) y un adecuado balance entre capacidad (media, en función del número de usuarios), y rendimiento (medio), y del cual se realizan backups de forma diaria.

  • Tipo 3 o almacenamiento masivo de datos (MSS): utilizados para almacenar bases de datos y resultados de experimentos, normalmente no varían su ontenido (suelen ser del tipo WORM) y su velocidad de acceso no suele ser crítica, aunque sí requieren de un elevado ancho de banda de acceso a los servidores, ya que pueden ser el lugar donde se almacenen resultados de experimentos. La realización de los backups puede ser llevada a cabo bajo demanda, debido a que su contenido sólo se modifica esporádicamente. Ejemplos de este tipo de datos son los resultados de la prediccion meteorológica diaria o las bases de datos utilizadas en genómica.

  • Tipo 4 o backups (internos y externos) a disco: Son copias de datos que los usuarios realizan de sus propios servidores o sus ordenadores personales, en los sistemas de almacenamiento del CESGA, para disponer de una copia de seguridad de sus datos. De este tipo de datos ya no es necesario realizar backups (ellos mismos son “el” backup), la disponibilidad del servicio puede ser baja. El servicio es ofrecido a través de la red (interna o externa) por lo que el tipo de conexión no requiere de un rendimiento alto (el cuello de botella se sitúa en la interconexión del usuario final con el almacenamiento). La capacidad puede ser baja o media, en función del número de usuarios o centros a los que se de servicio.

  • Tipo 5 o SCRATCH PARALELO: De muy alto rendimiento (muy baja latencia y máximo ancho de banda), similar al Tipo 1 con el añadido de que los datos scratch se comparten entre todos los nodos del cluster y están repartidos entre ellos, lo que permite aumentar el ancho de banda de acceso a los ficheros y la capacidad total del scratch por encima de la capacidad del disco local. Su disponibilidad puede ser muy baja debido a que depende de muchos componentes que no están redundados y no se realiza backups de estos datos.

 

Disponibilidad
Backups (periodicidad)
Conectividad
Capacidad
Compartición o accesibilidad
Tipo 1
Scratch

Baja
NO

Baja latencia, máximo ancho de banda

Media (20%)

Sin compartir

Tipo 2
Directorio Home

Máxima (del depende el funcionamiento del sistema)

Diaria

Media (arquitecturas estándar, FC)

Media (30%)

Entre todos los nodos del mismo sistema o cluster

Tipo 3
MSS

Media
On-demand

Red intranet o FC, para alcanzar la máxima compartición con altos anchos de banda internos

Máxima (90%)

Alta, interna al centro y esporádicamente externa

Tipo 4
Backups
Baja
Sin backup

Red, intranet e internet, con anchos de banda medios

Baja (10%)

Máxima, incluye sistemas internos y externos

Tipo 5
Scratch Paralelo
Baja
No

baja latencia, máximo ancho de banda

Alta (50%)
Sin compartir
Modificado ( 12.04.2010 )
Master HPC

CESGA APOYA

PRACE Award 2009

Itanium Alliance Award

Proyectos

Miembro de Gelato

Acreditación EUGridPMA

Novedades
Dominio gallego

ALERTA VIRUS MENSUAL

infoarrobacesga.es :: Telf.: +34 981 569810 - Fax: 981 594616 :: Avda. de Vigo s/n 15705, Santiago de Compostela.
CESGA