Narzędzia monitorujące wykorzystanie zasobów na klastrze Bem: Różnice pomiędzy wersjami

Z KdmWiki
Przejdź do nawigacji Przejdź do wyszukiwania
 
(Nie pokazano 11 pośrednich wersji utworzonych przez tego samego użytkownika)
Linia 16: Linia 16:
 
   Job Id  Job Name  Memory    Used/Req [GB]    Walltime    Used/Req [h]
 
   Job Id  Job Name  Memory    Used/Req [GB]    Walltime    Used/Req [h]
 
  --------  ---------- --------  ---------------  ----------  --------------
 
  --------  ---------- --------  ---------------  ----------  --------------
     2000  test_1    OK        6.86/7.81        OK          7/10          
+
     2000  test_1    OK        6.86/7.81        OK          71/100          
 
     2001  test_2    OK        6.86/7.81        OK          7/10           
 
     2001  test_2    OK        6.86/7.81        OK          7/10           
     2002  test_3    OK        6.86/7.81        OK          7/10         
+
     2002  test_3    OK        6.86/7.81        OK          5/5       
     2003  test_4    CRITICAL  0.86/7.81        OK          7/10            
+
     2003  test_4    CRITICAL  0.86/7.81        OK          12/12            
     2004  cc1        WARNING  4.00/10.00      WARNING    7/10            
+
     2004  cc1        WARNING  4.00/10.00      WARNING    4/12            
 
   
 
   
 
Kolejne kolumny powyższej tabeli oznaczają:
 
Kolejne kolumny powyższej tabeli oznaczają:
Linia 30: Linia 30:
 
* liczbę godzin wykorzystanych i zarezerwowanych dla zadania (Used/Req [h])
 
* liczbę godzin wykorzystanych i zarezerwowanych dla zadania (Used/Req [h])
 
   
 
   
Komunikaty "OK", "WARNING" oraz "CRITICAL" w kolumnach Memory i Walltime odpowiadają następującemu wykorzystaniu zasobów przez zadanie:
+
Komunikaty CRITICAL, WARNING oraz OK w kolumnach Memory i Walltime odpowiadają następującemu wykorzystaniu zasobów przez zadanie:
 
      
 
      
 
  Wykorzystanie zasobów:    Komunikat:
 
  Wykorzystanie zasobów:    Komunikat:
Linia 37: Linia 37:
 
  71-100%                    OK
 
  71-100%                    OK
  
'''Przykład:''' zadanie o nazwie test_1 (identyfikator 2000) wykorzystało 6.86 GB pamięci z zarezerwowanych 7.81 GB (ok. 88%) . Zadanie wykorzystało 70% zarezerwowanego czasu (obliczenia trwały 7h, natomiast zarezerwowano 10h).
+
'''Przykład:''' zadanie o nazwie test_1 (identyfikator 2000) wykorzystało 6.86 GB pamięci z zarezerwowanych 7.81 GB (ok. 88%) . Zadanie wykorzystało 71% zarezerwowanego czasu (obliczenia trwały 71h, natomiast zarezerwowano 100h).
  
 
Dodanie opcji -c do polecenia '''resused''' wyświetli dodatkowe informacje:
 
Dodanie opcji -c do polecenia '''resused''' wyświetli dodatkowe informacje:
Linia 47: Linia 47:
 
   Job Id  Job Name  Memory    Used/Req [GB]    Walltime    Used/Req [h]    CPUTime    Used/Wall*ncpus [h]
 
   Job Id  Job Name  Memory    Used/Req [GB]    Walltime    Used/Req [h]    CPUTime    Used/Wall*ncpus [h]
 
  --------  ---------- --------  ---------------  ----------  --------------  ---------  ---------------------
 
  --------  ---------- --------  ---------------  ----------  --------------  ---------  ---------------------
     2000  test_1    OK        6.86/7.81        OK          7/10            OK        5/7
+
     2000  test_1    OK        6.86/7.81        OK          71/1000        OK        71/100
     2001  test_2    OK        6.86/7.81        OK          7/10            OK        5/7
+
     2001  test_2    OK        6.86/7.81        OK          7/10            OK        15/20
     2002  test_3    OK        6.86/7.81        OK          7/10            OK        5/7
+
     2002  test_3    OK        6.86/7.81        OK          5/5             CRITICAL  4/20
     2003  test_4    CRITICAL  0.86/7.81        OK          7/10            OK        5/7
+
     2003  test_4    CRITICAL  0.86/7.81        OK          12/12          CRITICAL  1/12
     2004  cc1        WARNING  4.00/10.00      WARNING    7/10           OK        5/7
+
     2004  cc1        WARNING  4.00/10.00      WARNING    4/12           WARNING    4/12
 
   
 
   
 
Dwie końcowe kolumny w powyższej tabeli oznaczają:
 
Dwie końcowe kolumny w powyższej tabeli oznaczają:
 
* komunikat dotyczący wykorzystania czasu CPU przez zadanie (CPUTime)
 
* komunikat dotyczący wykorzystania czasu CPU przez zadanie (CPUTime)
* liczbę godzin CPU wykorzystanych przez zadanie i wartość liczba_wykorzystanych_godzin_walltime*liczba_zaalokowanych_rdzeni (Used/Wall*ncpus [h])
+
* liczbę godzin CPU wykorzystanych przez zadanie (Used) oraz iloczyn: liczba_zaalokowanych_godzin_walltime*liczba_zaalokowanych_rdzeni (Wall*ncpus)
  
'''Przykład:''' zadanie o nazwie test_1 (identyfikator 2000) było zlecone na jeden rdzeń (ncpus=1) i wykorzystało 5h czasu CPU oraz 7h walltime'u. Wartość Wall*ncpus jest w tym przypadku równa 7. Procentowe wykorzystanie czasu CPU jest zatem równe 71%.  
+
'''Przykład:''' zadanie o nazwie test_1 (identyfikator 2000) było zlecone na jeden rdzeń (ncpus=1) i wykorzystało 71h czasu CPU oraz 71h walltime'u. Procentowe wykorzystanie czasu CPU jest zatem równe 71%.  
  
  
Linia 78: Linia 78:
  
 
'''Przykład:''' 10 ostatnio zakończonych zadań użytkownika wykorzystało łącznie 111 GB pamięci z zarezerwowanych 117 GB, co stanowi 95%. Te same zadania wykorzystały łącznie 4036h czasu obliczeniowego z zaalokowanych 5040h (80%).
 
'''Przykład:''' 10 ostatnio zakończonych zadań użytkownika wykorzystało łącznie 111 GB pamięci z zarezerwowanych 117 GB, co stanowi 95%. Te same zadania wykorzystały łącznie 4036h czasu obliczeniowego z zaalokowanych 5040h (80%).
 +
  
 
'''Uwaga'''
 
'''Uwaga'''
 +
 
Po zalogowaniu na klaster Bem wyświetlane są dwie tabele. Pierwsza z nich prezentuje informację o wykorzystaniu pamięci oraz walltime'u przez 10 ostatnio zakończonych zadań użytkownika (wynik działania komendy '''resused 10'''), natomiast druga przedstawia statystyki wykorzystania tych zasobów przez ostatnich 10, 100 oraz 1000 zadań (wynik działania komendy '''resstat''').
 
Po zalogowaniu na klaster Bem wyświetlane są dwie tabele. Pierwsza z nich prezentuje informację o wykorzystaniu pamięci oraz walltime'u przez 10 ostatnio zakończonych zadań użytkownika (wynik działania komendy '''resused 10'''), natomiast druga przedstawia statystyki wykorzystania tych zasobów przez ostatnich 10, 100 oraz 1000 zadań (wynik działania komendy '''resstat''').

Aktualna wersja na dzień 09:31, 19 lip 2016

Na klastrze Bem dostępne są narzędzia ułatwiające monitorowanie wykorzystania zasobów (pamięć operacyjna oraz czas wykonywania) przez zakończone zadania (resused i resstat).


Aby uzyskać informacje o wykorzystaniu zasobów przez zakończone zadania można skorzystać z polecenia:

> resused number_of_jobs

gdzie jako parametr należy podać liczbę zadań z zakresu od 1 do 500, np.

> resused 5

Polecenie wyświetli tabelę zawierającą informacje o wykorzystaniu zasobów przez każde z 5-ciu ostatnio zakończonych zadań. Tabela powinna wyglądać podobnie do poniższej:

Resource usage of the last 5 jobs

  Job Id  Job Name   Memory    Used/Req [GB]    Walltime    Used/Req [h]
--------  ---------- --------  ---------------  ----------  --------------
    2000  test_1     OK        6.86/7.81        OK          71/100          
    2001  test_2     OK        6.86/7.81        OK          7/10          
    2002  test_3     OK        6.86/7.81        OK          5/5        
    2003  test_4     CRITICAL  0.86/7.81        OK          12/12           
    2004  cc1        WARNING   4.00/10.00       WARNING     4/12            

Kolejne kolumny powyższej tabeli oznaczają:

  • identyfikator zadania (Job Id)
  • nazwę zadania (Job Name)
  • komunikat dotyczący wykorzystania pamięci przez zadanie (Memory)
  • ilość pamięci wykorzystanej i zaalokowanej dla zadania w GB (Used/Req [GB])
  • komunikat dotyczący wykorzystania walltime'u przez zadanie (Walltime)
  • liczbę godzin wykorzystanych i zarezerwowanych dla zadania (Used/Req [h])

Komunikaty CRITICAL, WARNING oraz OK w kolumnach Memory i Walltime odpowiadają następującemu wykorzystaniu zasobów przez zadanie:

Wykorzystanie zasobów:     Komunikat:
0-30%                      CRITICAL
31-70%                     WARNING
71-100%                    OK

Przykład: zadanie o nazwie test_1 (identyfikator 2000) wykorzystało 6.86 GB pamięci z zarezerwowanych 7.81 GB (ok. 88%) . Zadanie wykorzystało 71% zarezerwowanego czasu (obliczenia trwały 71h, natomiast zarezerwowano 100h).

Dodanie opcji -c do polecenia resused wyświetli dodatkowe informacje:

> resused -c 5
Resource usage of the last 5 jobs

  Job Id  Job Name   Memory    Used/Req [GB]    Walltime    Used/Req [h]    CPUTime    Used/Wall*ncpus [h]
--------  ---------- --------  ---------------  ----------  --------------  ---------  ---------------------
    2000  test_1     OK        6.86/7.81        OK          71/1000         OK         71/100
    2001  test_2     OK        6.86/7.81        OK          7/10            OK         15/20
    2002  test_3     OK        6.86/7.81        OK          5/5             CRITICAL   4/20
    2003  test_4     CRITICAL  0.86/7.81        OK          12/12           CRITICAL   1/12
    2004  cc1        WARNING   4.00/10.00       WARNING     4/12            WARNING    4/12

Dwie końcowe kolumny w powyższej tabeli oznaczają:

  • komunikat dotyczący wykorzystania czasu CPU przez zadanie (CPUTime)
  • liczbę godzin CPU wykorzystanych przez zadanie (Used) oraz iloczyn: liczba_zaalokowanych_godzin_walltime*liczba_zaalokowanych_rdzeni (Wall*ncpus)

Przykład: zadanie o nazwie test_1 (identyfikator 2000) było zlecone na jeden rdzeń (ncpus=1) i wykorzystało 71h czasu CPU oraz 71h walltime'u. Procentowe wykorzystanie czasu CPU jest zatem równe 71%.


W celu sprawdzenia statystyki wykorzystania zasobów przez 10, 100 oraz 1000 ostatnio zakończonych zadań można skorzystać z komendy:

> resstat

Polecenie wyświetla tabelę podobną do poniższej:

Total usage by the last:

             Memory used/req [GB]    [%]    Walltime used/req [h]    [%]
---------  ----------------------  -----  -----------------------  -----
  10 jobs                 111/117     95                4036/5040     80
 100 jobs               1118/1172     95              25030/50400     50
1000 jobs               8937/9850     89            209631/498418     42

Tabela ta zawiera następujące informacje:

  • sumaryczną ilość pamięci wykorzystanej i zaalokowanej przez 10, 100 i 1000 ostatnio zakończonych zadań w GB (Memory used/req [GB])
  • sumaryczną liczbę godzin wykorzystanych i zaalokowanych przez 10, 100 i 1000 ostatnio zakończonych zadań (Walltime used/req [GB])
  • procentowe wykorzystanie pamięci i walltime'u przez 10, 100 i 1000 ostatnio zakończonych zadań

Przykład: 10 ostatnio zakończonych zadań użytkownika wykorzystało łącznie 111 GB pamięci z zarezerwowanych 117 GB, co stanowi 95%. Te same zadania wykorzystały łącznie 4036h czasu obliczeniowego z zaalokowanych 5040h (80%).


Uwaga

Po zalogowaniu na klaster Bem wyświetlane są dwie tabele. Pierwsza z nich prezentuje informację o wykorzystaniu pamięci oraz walltime'u przez 10 ostatnio zakończonych zadań użytkownika (wynik działania komendy resused 10), natomiast druga przedstawia statystyki wykorzystania tych zasobów przez ostatnich 10, 100 oraz 1000 zadań (wynik działania komendy resstat).