Tolerância a falhas
A disponibilidade é a aspecto importante da Computação de Alto Desempenho.
Disponibilidade é a medida de que o sistema de quanto quantidade de tempo que o sistema está disponível. Um sistema pode não estar em condições disponíveis devido a falha de hardware ou software. A solução para o fracasso do sistema, temos de fazer o sistema tolerante a falhas. Para evitar falhas de hardware, podemos construir falha de hardware tolerante onde os sistemas são decompostos em módulos; dividindo por sistema em módulos falhas isoladas de módulos são e que pode impedir a activação de outras falhas, hardware redundante também pode ser usado.
Para fazer a falhas de software tolerante, podem ser utilizadas as técnicas de mensagens publicitárias e de rejuvenescimento [5].
programação para computadores paralelos
Como a computação de alto desempenho tem uma arquitectura complexa, que torna a programação mais complexa. Podemos resolver este problema através da introdução de novos modelos de programação. Estes modelos de programação pode desempenhar um papel de ponte entre a programação e hardware.
O equilíbrio entre produtividade e eficiência é a chave durante a implementação destes modelos de programação [6] [7]
Referências
[1] ML Fisher, "Optimal Solução de Problemas Usando Agendamento de Lagrange Multiplicadores.: Parte I, " Pesquisa Operacional , vol. 21, não. 5, pp. 1114-1127, setembro de 1973. [2] M. Naiouf, L. De Giusti, F. Chichizola, e A. De Giusti, "balanceamento dinâmico de carga em clusters não-homogêneos, "em Fronteiras da Computação de Alto Desempenho e Networking-ISPA 2006 Workshops , 2006, p. 65-73. [3] C. Kopparapu, Servidores de balanceamento de carga, firewalls, e caches . New York: John Wiley & Sons, Inc., 2002. [4] DA Wheeler, "Programação seguro para Linux e Unix HOWTO", p. 00, 2003. [5] F. Piedad, High Availability: Design, Técnicas e Processos . 2001. [6] WD Gropp, "modelos programProblemas em Alta Disponibilidade