Blog
Exadata - Monitorando a temperatura ambiente dos servidores
Manter a temperatura dos servidores dentro das especificações de desing do Oracle Exadata Rack ajuda a alcançar a máxima eficiência e vida útil dos equipamentos, desta forma, temperaturas ambiente fora da faixa de 21 a 23 graus Celsius acabam afetando todos os componentes dentro do Oracle Exadata causando possíveis problemas de desempenho, maior consumo de energia e tempo de vida reduzido.
Para os servidores do Oracle Exadata (database servers e storage servers) a temperatura registrada pelo sensor deve ficar na faixa de 5 a 32 graus Celsius, estando fora desta faixa significa que o sistema Exadata está operando em um ambiente com um potencial problema de resfriamento que precisa ser investigado e solucionado.
Os Exadata Storage Servers (cell nodes), por exemplo, possuem um threshold configurado e geram um alerta via e-mail caso a temperatura ultrapasse os 32 graus Celsius (logicamente se as configurações para envio estiverem corretas).
Para realizar a configuração e validação de envio de e-mail basta utilizar a Doc ID 2078602.1 - How to set up Exadata storage cell to send notifications about alerts, no My Oracle Support (MOS) como referência.
Além do envio de e-mail supracitado é possível realizar validações e/ou monitoramentos rotineiros das temperaturas do servidores de forma a garantir que o ambiente esta operando dentro das condições recomendadas.
Conectado em um dbnode (database server), crie o arquivo all_group (se ainda não existir) contendo o ip de todos os database servers e storage servers do Exadata.
[root@dbnode1 ~]# cat all_group 170.10.0.10 170.10.0.11 170.10.0.12 170.10.0.13 170.10.0.14
Para validar se já existe equivalência (chave pública) configurada entre os servidores execute o comando abaixo que irá retorna o hostname dos servidores:
[root@dbnode1 ~]# dcli -g all_group -l root 'hostname' 170.10.0.10: dbnode1 170.10.0.11: dbnode2 170.10.0.12: cellnode1 170.10.0.13: cellnode2 170.10.0.14: cellnode3
Caso ocorra erros informando a necessidade de password, basta executar o procedimento abaixo para criar a equivalência:
[root@dbnode1 ~]# dcli -g all_group -l root -k root@dbnode1's password: root@dbnode2's password: root@cellnode1's password: root@cellnode2's password: root@cellnode3's password: dbnode1: ssh key added dbnode2: ssh key added cellnode1: ssh key added cellnode2: ssh key added cellnode3: ssh key added
Verificando a temperatura dos servidores:
[root@dbnode1 ~]# dcli -g all_group -l root ipmitool sensor list | grep degree | grep T_AMB 170.10.0.10: T_AMB | 21.000 | degrees C | ok | 3.000 | na | na | na | na | na 170.10.0.11: T_AMB | 21.000 | degrees C | ok | 3.000 | na | na | na | na | na 170.10.0.12: T_AMB | 22.000 | degrees C | ok | 3.000 | na | na | na | na | na 170.10.0.13: T_AMB | 23.000 | degrees C | ok | 3.000 | na | na | na | na | na 170.10.0.14: T_AMB | 24.000 | degrees C | ok | 3.000 | na | na | na | na | na
[root@dbnode1 ~]# dcli -g all_group -l root 'ipmitool sunoem cli "show /SYS/T_AMB" | grep value' 170.10.0.10: value = 21.250 degree C 170.10.0.11: value = 21.250 degree C 170.10.0.12: value = 21.500 degree C 170.10.0.13: value = 22.500 degree C 170.10.0.14: value = 23.500 degree C
Estando a saída fora do intervalo de temperatura recomendado, investigue e corrija o problema.
Os seguintes itens devem ser analisados:
- Fluxo de ar suficiente no rack;
- A temperatura ambiente está dentro do intervalo especificado;
- A parte traseira da prateleira está livre de obstruções.