Simplicity dostawcą technologii IT w projekcie„Genomiczna Mapa Polski”

Tematy poruszane w tym artykule

Na zamówienie konsorcjum Politechniki Poznańskiej i Instytutu Chemii Bioorganicznej PAN, Simplicity uruchomiło specjalistyczną infrastrukturę IT służącą do przechowywania i przetwarzania danych na potrzeby projektu „Genomiczna Mapa Polski (GMP)”. Celem tego projektu było pobranie i sekwencjonowanie DNA od 5000 Polaków. Dzięki temu powiększył się stan ogólnej wiedzy na temat genetyki populacyjnej człowieka, a naukowcy uzyskali szerszy wgląd w zmienność genetyczną mieszkańców Polski. Nie byłoby to możliwe bez odpowiednich rozwiązań informatycznych.

WPROWADZENIE

Budowa genomicznej mapy Polski to wielkie wyzwanie dla bioinformatyki. Wystarczy uzmysłowić sobie, że w 2003 roku, po trzynastu latach pracy, po raz pierwszy ludzkość poznała wyniki „Human Genome Project”. To jedno z największych przedsięwzięć współczesnej nauki pozwoliło odczytać genom, czyli zapis informacji genetycznej organizmu człowieka decydującej o większości naszych cech – wyglądzie, upodobaniach, zainteresowaniach, a także predyspozycjach zdrowotnych, w tym także o podatności na choroby nowotworowe.

Całkowita długość DNA w organizmie człowieka przekracza kilka milionów kilometrów, czyli dystans ok. 140 większy niż odległość Ziemi od Słońca. Zapis tekstowy DNA, składający się z kombinacji tylko czterech liter oznaczających aminokwasy, miałby objętość 400 tomów encyklopedii. Oznacza to, że cyfrowa wersja genomu człowieka obejmuje setki gigabajtów danych.

„Na potrzeby ‘Genomicznej Mapy Polski’ musieliśmy znaleźć sposób, aby z jednej strony bezpiecznie przechować dane z 5000 próbek, co wymagało, jak szacowaliśmy, pojemności macierzy dyskowych rzędu 3 petabajtów. Z drugiej strony chcieliśmy rozwiązania, które mogło błyskawicznie dostarczać te dane na potrzeby analiz i symulacji opisujących zmienność genetyczną, czy badań podatności na niektóre choroby genetycznie wdrukowane w kod DNA naszej populacji” – mówił kierownik projektu, prof. dr hab. inż. Jacek Błażewicz.

PROBLEM

Jednym z celów projektu GMP było zbadanie korelacji pomiędzy różnymi sekwencjami znaków oraz wyszukanie wzorców w wynikowych plikach. Od strony informatycznej to poważne wyzwanie wymagające zastosowania zaawansowanych i wyrafinowanych algorytmów uczenia maszynowego (Machine Learning) oraz serwerów gwarantujących odpowiednią wydajność. Konsorcjum wykorzystało do tego celu systemy dostosowane do masowego i równoległego przetwarzania danych, zbudowane w oparciu o procesory NVIDIA. Ich architektura składająca się z tysięcy rdzeni została tak zaprojektowana, aby sprostać wyzwaniom o rzadko spotykanej skali złożoności obliczeniowej. Efektywna praca procesorów NVIDIA wymagała zaprojektowania i uruchomienia odpowiedniego podsystemu dyskowego, który byłby w stanie pogodzić udostępnianie wielkiej przestrzeni dyskowej z ekstremalną szybkością działania tak, aby sprawnie dostarczać dane na potrzeby prowadzonych operacji obliczeniowych.

ROZWIĄZANIE

Przetarg został rozpisany w kwietniu 2022 roku, a już pod koniec października tego samego roku system został oddany do eksploatacji.

„Wymagania postawione przez konsorcjum Politechniki Poznańskiej i Instytutu Chemii Bioorganicznej PAN były bardzo wyśrubowane. Zdecydowaliśmy się na połączenie sprzętu NetApp, Lenovo i IBM w jedno efektywne rozwiązanie, które w sposób niebudzący żadnych wątpliwości spełniało wymagania Specyfikacji Istotnych Warunków Zamówienia co do technologii oraz pojemności i wydajności całego podsystemu przechowywania i dostarczania danych” – mówił menedżer projektu ze strony Simplicity – Tomasz Ostaszewski.

Tomasz Ostaszewski, Simplicity

Do budowy podsystemu dyskowego wykorzystano macierze NetApp z serii AFF A400 łączące w sobie wysoką wydajność z niezawodnością. Zostały one zaprojektowane do obsługi bardzo dużych obciążeń i zapewnienia ekstremalnie krótkiego czasu dostępu do danych.

Wykorzystano w nich dyski NVMe, które mają bardzo wysoką szybkością odczytu i zapisu danych, co pozwala na sprawną realizację operacji obliczeniowych. Dzięki wbudowanym funkcjom inteligentnego tieringu, macierze NetApp AFF dostarczają dane do procesorów NVIDIA z wymaganą przez Zamawiającego prędkością.

Wymaganą przestrzeń dyskową zapewniły macierze hybrydowe NetApp FAS 8700. Obie platformy zostały połączone w jeden klaster tak, aby zapewnić odpowiedni poziom bezpieczeństwa danych oraz zminimalizować łączne koszty posiadania i eksploatacji takiego rozwiązania.

Do komunikacji z serwerami macierze wykorzystują sieć Ethernet o wysokiej przepustowości sięgającej 200 Gb/s. Tak wysoki transfer jest niezbędny, aby spełnić wymagania wydajnościowe. Tak, jak zakładano na etapie planowania, optymalny dobór konfiguracja podzespołów bazowych były czynnikami krytycznymi decydującymi o kosztach i powodzeniu całego projektu. Zastosowanie najnowocześniejszych macierzy NetApp ostatecznie zdecydowało o osiągnięciu zamierzonych celów całego projektu.

WDROŻENIE


„Po wygranym przetargu, w którym pokonaliśmy naszą konkurencję, rozpoczęliśmy prace planistyczne. W pierwszej kolejności zajęliśmy się budową efektywnego środowiska składowania oraz archiwizacji danych.
Kluczowa dla nas była świadomość, że pozyskane dane genetyczne są unikatowe i żadnej sytuacji nie mogą ulec zagubieniu, czy utracie” – powiedział Paweł Książek, główny architekt i Netapp System Engineer w Simplicity.

Paweł Książek, główny architekt i Netapp System
Engineer w Simplicity.

Obok podsystemu dyskowego i warstwy przetwarzania danych zbudowano zatem dodatkowy moduł, którego funkcją było tworzenie kopii zapasowych oraz archiwizacja tych danych, które zostały już przeanalizowane. Zadania te bardzo wydajnie i efektywnie realizował system IBM Spectrum Protect, który jest ceniony na rynku za swoje unikalne podejście do zagadnień związanych z backupem i archiwizacją. „Dane oznaczone jako archiwa postanowiliśmy składować na nośnikach taśmowych, co znacząco zredukowało koszty realizacji całego projektu, a dodatkowym zabezpieczeniem było tworzenie dwóch kopii, z których jedna była deponowana w miejscu oddalonym od podstawowego centrum przetwarzania”
– opowiadał Wiktor Mądry, IBM Spectrum Protect Engineer w Simplicity.

Wdrożenie trwające kilka miesięcy skupiło się przede wszystkim na uruchomieniu sprzętu oraz jego żmudnym strojeniu z oprogramowaniem. Procesy te wymagały rozległej wiedzy technicznej oraz dużego doświadczenia. Po rozpoczęciu przetwarzania danych z „Genomicznej Mapy Polski”, całe środowisko danych zostało objęte wsparciem SimpliCare, w ramach którego specjaliści z Simplicity nieprzerwanie
czuwają nad kondycją i stanem urządzeń, kontrolują potencjalne ryzyka i prowadzą prace administracyjne i serwisowe.

ZESPOŁY WDROŻENIOWE

Ze strony Konsorcjum Politechniki Poznańskiej i Instytutu Chemii Bioorganicznej PAN realizacją projektu zajmował się zespół w składzie:

  • Kierownik Projektu – prof. dr hab. inż. Jacek Błażewicz
  • Zastępca Kierownika Projektu – dr hab. inż. prof. Piotr Łukasiak
  • Lider zespołu ds. baz danych – dr Inż. Marcin Borowski
  • Ekspert w obszarze infrastruktury i obliczeń numerycznych – dr inż. Maciej Miłostan
  • Lider zespołu analitycznego – dr inż. Paweł Wojciechowski

Do realizacji tego projektu Simplicity utworzyło zespół bardzo doświadczonych inżynierów systemowych, którzy mieli już duże doświadczenie z realizacji innych tego typu zadań dla największych instytucji w Polsce i zagranicą.


W jego skład weszli:

  • Project Manager – Tomasz Ostaszewski
  • Główny Architekt i Netapp System Engineer w jednej osobie – Paweł Książek
  • Lenovo System Engineer – Damian Maciejewski
  • IBM Spectrum Protect Engineer – Wiktor Mądry
  • AI/DL Specialist Solution Engineer – Piotr Skrzypek

OCENA KOŃCOWA

„Zespół Zamawiającego okazał się bardzo wymagający pod względem merytorycznym. Liczyła się przede wszystkim jakości dostarczanego rozwiązania i zdolność do przewidywania potencjalnych trudności.

Z naszego punktu widzenia takie podejście idealnie pasowało do standardów realizacji projektów w Simplicity” – ocenił Tomasz Ostaszewski.

Punkt widzenia drugiej strony podsumował Jacek Błażewicz, kierownik projektu ze strony Konsorcjum: „Współpraca obu zespołów okazała się bardzo owocna i twórcza, choć nie była pozbawiona gorących dyskusji o kształcie niektórych obszarów w środowisku składowania i przetwarzania danych. Obie ekipy miały na uwadze jeden cel – stworzenie platformy, która w stu procentach zapewni realizację nietypowego projektu badawczego”.


Dowiedz się więcej

Zapisz się do newslettera i bądź zawsze na bieżąco
Zapisz się