La Rockefeller University monitora la propria infrastruttura informatica di ricerca con Checkmk
Chi è la Rockefeller University?
La Rockefeller University è la principale università di ricerca biomedica al mondo. L'istituto attira i migliori scienziati e studenti laureati da tutto il mondo per perseguire un'unica missione: condurre la scienza a beneficio dell'umanità. I laboratori utilizzano le tecnologie più recenti per rispondere alle domande più difficili nei loro campi. Tutto questo a New York City, una mecca per la cultura e le idee, e grazie a un centro in piena espansione per la scienza biomedica.

Avevamo bisogno di un monitoraggio che ci permettesse di contrastare i problemi, prima che avessero un impatto sulle prestazioni del nostro sistema informatico. L'abbiamo trovato con Checkmk.
Le alte prestazioni sono essenziali
La Rockefeller University è uno degli istituti leader nel campo della ricerca biochimica. Dalla sua fondazione nel 1901, un totale di 26 premi Nobel hanno frequentato l'istituto. Per poter continuare a condurre la scienza a un livello di innovazione così elevato, il funzionamento dell'infrastruttura IT è una delle massime priorità.
Il team IT mira a fornire tutte le risorse necessarie per garantire le migliori prestazioni di tutte le strutture di ricerca. A causa dei suoi standard elevati e del fatto che l'università non ha studenti universitari, ma soprattutto ricercatori come utenti, è stato necessario sviluppare una grande infrastruttura IT.
La maggior parte delle risorse hardware è ospitata in data center con particolare attenzione al calcolo ad alte prestazioni. I team informatici gestiscono cluster di server con circa 6.000 core di CPU in totale. L'infrastruttura IT deve anche supportare i dispositivi sanitari dell'ospedale universitario che si trova anch'esso nel campus. L'insieme delle strutture comprende più di 50 laboratori di diversi settori scientifici. Oltre ai laboratori biochimici, sono inclusi anche spazi per i maker e laboratori di produzione. In tutti questi laboratori, gli utenti si aspettano che l'IT funzioni al massimo delle prestazioni.

La sfida
La Rockefeller University deve fornire l'infrastruttura IT ai laboratori di ricerca. La precedente soluzione di monitoraggio era obsoleta e continuava a inviare molti allarmi imprecisi, che spesso venivano ignorati dal personale. Il team IT ha quindi iniziato a cercare uno strumento di monitoraggio in grado di gestire sistemi ad alte prestazioni, con un buon sistema di allarmi e di facile manutenzione.
Checkmk è in grado di memorizzare i dati per un lungo periodo di tempo. Questo ci permette di capire l'impatto delle azioni, indipendentemente dal fatto che siano avvenute di recente o in passato. Possiamo sempre risalire ai problemi e trarre spunti per migliorare la nostra infrastruttura IT e i processi aziendali.
Il monitoraggio è fondamentale per la Rockefeller University. In precedenza l'università utilizzava Nagios, ma la soluzione generava troppi falsi allarmi, richiedeva un notevole impegno di manutenzione e non forniva la visibilità desiderata. Il team IT ha trovato in Checkmk Raw Edition un'alternativa per sostituire Nagios.

Dopo aver utilizzato Checkmk per alcuni anni, nel 2022 il team IT ha deciso di passare a Checkmk Enterprise Edition per utilizzare meglio i dati di monitoraggio raccolti. Le funzionalità aggiuntive aiutano il team IT ad agire in modo più proattivo.
Checkmk monitora tutti gli asset dei data center e delle reti, come applicazioni aziendali, server, switch e storage. Il monitoraggio comprende più di 850 host con circa 17.000 servizi. Nel corso degli anni, il team IT ha sviluppato alcuni plug-in propri, ma monitora la maggior parte dei sistemi con i plug-in ufficiali di Checkmk. L'implementazione si è svolta senza problemi e il team IT è soddisfatto del fatto che Checkmk li avvisi solo quando è necessario intervenire. Checkmk ha ridotto in modo significativo il numero di falsi allarmi e le ore di lavoro dedicate al monitoraggio.
La soluzione
La Rockefeller University ha iniziato a utilizzare Checkmk Enterprise Edition nel 2022, ponendo fine alla 'alert fatigue" del proprio team IT. Checkmk ha sostituito Nagios ed è ora lo strumento di monitoraggio principale. Viene utilizzato da diversi team per monitorare tutte le risorse del campus, compresa la rete e il data center ad alte prestazioni.
Più trasparenza e comunicazione efficiente
Il più grande vantaggio di Checkmk, tuttavia, è la maggiore visibilità e trasparenza del monitoraggio. Ogni dipartimento può adattare il monitoraggio dei propri host alle proprie esigenze. Allo stesso tempo, ogni utente può avere accesso in sola lettura all'intero ambiente Checkmk e può vedere tutti gli host.
In questo modo, tutti sono sulla stessa lunghezza d'onda e possono verificare se un problema con i loro sistemi è collegato a un altro problema in un altro dipartimento. Questo è possibile perché Checkmk ha un controllo di accesso granulare e il team IT fornisce i diritti di amministrazione a diversi gruppi di utenti utilizzando una semplice struttura di cartelle in Checkmk. Ciò consente ai team di aree quali la sicurezza informatica, le applicazioni o l'help desk di creare e gestire i propri host in Checkmk.
La Rockefeller University è molto soddisfatta di Checkmk. Il numero di chiamate di assistenza è diminuito da quando è stato implementato il monitoraggio. Il team IT ha anche più tempo per altre cose oltre al monitoraggio e può concentrarsi su compiti più importanti.

La comunicazione e il supporto di Checkmk sono ottimi. Siamo trattati bene e siamo felici di aver scelto Checkmk.
I vantaggi
Checkmk alleggerisce il carico del team IT, che ora ha bisogno di meno tempo per gestire il monitoraggio. Le notifiche sono precise e permettono alle persone giuste di sapere dove e quando devono intervenire. Con Checkmk il team IT è anche in grado di raccogliere e archiviare dati in tempo reale, che gli consentono di agire in modo proattivo. La maggior parte dei problemi e delle anomalie possono essere rilevati prima che abbiano un impatto sulle prestazioni dell'infrastruttura IT.