Rocks HPC

ROCKS

La última versión es Rocks 5.4 (Maverick) (aunque Rafa insista en la 5.3 :-) Nota: descargo el ultimo, 5.4, en estos dias :)

Puntos a tener en cuenta para el cluster

* /home para alojar los datos de los programas de computo

* cuando levanta el Kusu levanta un DHCPServer que interfiere con el del aula. NotaOso?:  http://osobox.ods.org/P%C3%BAblico/Sysadmin/Recetas/Virtualizaci%C3%B3n/KVM.html

* El software de gestion de cluster debe soportar nodos diskless?

Aparentemente Rocks tiene un roll para esto, pero no mantenido. Encontró muy poca info en relación a esto, foros viejos (2006), y quizá con una o ninguna contestación....(?)

* Puedo instalar un nodo en una particion especificada manualmente? En el user manual del sitio de Rocks, cuando explica cómo instalar un nodo, no lo dice (menos habla de diskless). Hay otro tomo gordo de petete con el manual de rocks posta posta y no lo encuentro? Imagino que si.

* Que job manager usa?

SGE: no es del agrado del Oso. NotaOso?: de mi agrado es LSF (o Lava) OpenPBS: free - open source Condor roll?

* Es mantenido por la comunidad actualmente? Si. Dato: A la lista, llega un promedio de 3 mails por día.

17/05: Intento de instalación de Rocks en una PC (conseguida por Rodolfo). Fracaso absoluto, no tenía lectora de DVD, no arrancaba con usb.

27/05: Segundo Intento de instalación de Rocks en la misma PC, pero con una magnífica lectora de DVD que consiguió Rafa. DVD en mano arrancamos la instalación del Rocks 5.3 (tacos) Lo primero que hace es detectar algo con la eth0, y luego dice que no encuentra un arbol de paquetes instalables en la ubicación, que especifiquemos otra. Entonces probamos con un NFS compartido, pero nada. Cuestión: Al dejarlo arrancar por defecto inicia con Rescue Mode y no modo normal (contrariamente a lo que pensamos). Arrancamos de nuevo, cuando muestra la foto de los tacos con queso escribimos

build (enter)

Ahi marcha bien, tan fácil que casi lo instalamos en Telugu para que tenga algo de emoción. Seleccionamos partición manual, y se palmó, dio error, de disco de solo lectura, aparentemente queria particionar la lectora de dvd, por las dudas pusimo particionamiento automático en la siguiente y pasó.

Paquetes: elejimos algunos a ojo, yo no recordaba cuales eran los que necesitabamos. Era solo una prueba inicial. Base, HPC, Kernes, Web Service..

Terminó, fuimos a  http://localhost y muestra un sitio de Wordpress, que tenia todos los links apuntando a  http://cluster.org o algo asi, que era la direccion que le dejamos por defecto en la instalación.

No logramos ver nada mas que eso, bueno tampoco teniamos nodos instalados. Nos fuimos a las casas.

Próximos Pasos: - Conseguir otra placa (el frontend necesita dos, eth0 y eth1) - Conseguir otra pc para instalar un nodo (y tener nuestro primer clustercito! Rafa como le vamos a poner?! :-) - Descargar el Rocks 5.4 (y si, estoy densa, pero puede tener bugs arreglados, el Service Pack!)

DESCARGO EL ULTIMO ROCKS 5.4 en estos dias jeje - Queremos el Service Pack

31/06/2011

Conseguimos un equipo para hacer de nodo. Instalamos de nuevo el FE, ahora con Rocks 5.4, con las siguientes opciones marcadas: -dynamic dhcp -ipv2 deshabilitado Rolls: base, gancglia, hpc, kernel, OS, webserver -localhost.localdomain Resto opciones por defecto

Pusimos una IP diferente del switchito negrito que nos dio terwal, con clave, entonces despues como no podiamos cambiarle la ip al cosito negro, decidimos cambiarsela al FE... error! no era nada sensillo. Después de muchos pases mágicos de Rafa, la ip cambiaba, pero volvia a la vieja nuevamente. Entonces buscando buscando nos dimos cuenta de los comandos, pero al probar la instalcion decia: .........buscando kickstart file in 10.0.0.1

y nos fuimos a las casas.

En las casas seguimos buscando info y resulta que nos faltaba un comando mas al final. Finalmente, los aplicamos a todos juntos:

09/08/2011

rocks set host interface ip localhost eth0 10.10.10.2 rocks set netmask 255 255 255 0 rocks sync config rocks sync host network localhost

Instalamos bien el FE, seguimos con el nodo. Ahora estamos con un hub (largamos el cosito negro). Enchufamos, prendimos el nodo, lo detectó y se instaló el nodo. En realidad en el medio paso algo que no me acuerdo. Voila el nodo, entramos al wordpress del FE y se veía y mandamos pantallazo al Oso para que nos crea. Y surguieron los siguientes comentarios en ese mail, que paso en limpio:

Ahora sigue: **(1) probar el particionado manual en la instalacion del nodo**

**(2) buscar como corno evitar pisar el grub o si podemos instalarlo en otra particioncilla loca (si entendi bien a Rafa)**

**(3) Como deberia convivir el frontend de rocks que tiene su propio dhcp server con el de las aulas?** Rafa: Supongo que, tal vez, rocks permite deshabilitar "su" servidor dhcp y que el de las aulas se haga cargo. Pero ahi tenemos el inconveniente de que el frontend ya tiene todo configurado para una red distinta a la de las aulas. Por lo que kuyque (el servidor dhcp de las aulas) daria IPs a los nodos de otra red diferente al frontend.

Oso: Me niego a seguir viviendo si dependemos de que se pongan de acuerdo ambos DHCP servers. No hay lugar en el planeta para los dos. Uno de ellos debe morir.

En internet no encontré respuesta, asi que hicimos nuestra primer pregunta a la lista, y nos contestaron dos: Uno que dijo que ni usemos rocks mejor y armemos algo a mano, un task manager y a correr procesos por la noche. Otro chino que no se le entiende el inglés: en conclusion nada.

**(4) Habria que actualizar el kernel de los nodos para las pruebas con GPU? Es posible? (en cuanto a si usando otro kernel en los nodos de rocks le simpatiza al frontend). **

marina: Encontré esto no se si sirve para este punto:  https://wiki.rocksclusters.org/wiki/index.php/Upgrade_Kernel_in_Kernel_Roll

29/08/2011 Vamos a ver si podemos instalar el nodo en una particion que no es la primera (Punto 1 de la lista precedente). Indicamos el particionado segun el tutorial (No recuerdo ahora bien los valores del <pre>):

4.5.2.1. Single Disk Example

Create a new XML node file that will replace the current partition.xml XML node file:

# cd /export/rocks/install/site-profiles/5.4/nodes/ # cp skeleton.xml replace-partition.xml

Inside replace-partition.xml, add the following section right after the <main> </main> section:

<main>

<!-- kickstart 'main' commands go here -->

</main>

<pre> echo "clearpart --none --drives=hda part / --size 12000 --ondisk hda part swap --size 1000 --ondisk hda" > /tmp/user_partition_info </pre>

Eliminamos el nodo:  http://www.rocksclusters.org/roll-documentation/base/5.4.3/faq-configuration.html#REMOVE-NODE

Reinstalamos.

Ni tronco de bolilla.

Luego hicimos algo parecido, pero en vez de usar ondisk usamos onpart=hda6

Ni tronco de bolilla.

Ahora sigue hacer mas pruebas, en base a info recolectada/leida, hasta dar en la tecla y poder instalar el nodo en la particion que le indicamos.