Optimised software infrastructure for machine learning

This project aims to develop a more efficient and powerful backend for our SaaS solutions, capable of processing millions of requests daily to enable the automated analysis of small molecules. The backend will ensure fair scheduling between requests from different users, highly efficient distribution of requests, robust logging and minimal idle time to conserve energy. This will further strengthen our position as an innovative software provider in mass spectrometry analysis.
(Image by Roman from Pixabay)

Zur deutschen Version springen.

Tandem mass spectrometry experiments enable the high-throughput measurement of thousands of small molecules. The resulting volume of data is too vast for manual analysis, necessitating innovative algorithms and automated workflows. SIRIUS and its associated software-as-a-service (SaaS) solutions, CSI:FingerID and CANOPUS, provide this capability. Our methods empower the structural elucidation of small molecules not cataloged within any mass spectral database. CSI:FingerID accurately predicts the molecular fingerprint of a compound, facilitating searches in structural databases, while CANOPUS predicts compound classes without the need for any database. Both methods rely on state-of-the-art algorithms and machine learning to deliver superior automated analysis.

Our users submit the measured tandem mass spectra to our web service for analysis, generating millions of tandem mass spectra and terabytes of data daily. To efficiently process these requests, accommodate increasing user demands, and provide our customers with a dependable and swift service, this project aims to develop a more efficient and powerful backend for our SaaS software, capable of processing millions of requests per day in a scalable cloud infrastructure. This includes the worker instances that process requests, as well as internal communication within the backend and between frontend and backend software.

The communication infrastructure we plan to develop will ensure fair scheduling between requests from different users and highly efficient distribution of requests within the backend. Given the complexity and computational intensity of these requests, achieving this objective requires a meticulous evaluation of existing frameworks and specific adaptations. To accurately bill volume-based licensing models, robust logging of requests must be ensured. Additionally, we seek to minimize idle time to conserve energy and reduce ongoing operational costs.

Scalable cloud infrastructure has become a prominent topic worldwide. To provide our customers with professional SaaS solutions and accommodate their continuous growth, a robust and efficient software infrastructure for the automatic processing of all requests is indispensable. With this project, we aspire to fortify our position as a modern and innovative software company.

The project, funded by the Free State of Thuringia (project no. 2023 INP 0022), is co-financed by the European Social Fund (ESF) Plus.


Optimierte Software-Infrastruktur für Maschinelles Lernen

Tandem-Massenspektrometrie-Experimente ermöglichen die Messung von tausenden kleinen Molekülen im Hochdurchsatz. Die riesige Menge der resultierenden Daten kann nicht manuell ausgewertet werden. Daher benötigt es innovative Algorithmen und automatisierte Workflows zur Unterstützung. SIRIUS und die verbundenen Software-as-a-Service (SaaS)-Lösungen CSI:FingerID und CANOPUS bieten diese Funktionalität. Unsere Methoden ermöglichen die Strukturaufklärung kleiner Moleküle, die in keiner Massenspektrendatenbank enthalten sind. CSI:FingerID sagt den molekularen Fingerabdruck einer Verbindung für die Suche in einer Strukturdatenbank voraus. CANOPUS sagt die Verbindungsklassen voraus, ohne dass eine Datenbanksuche erforderlich ist. Beide Methoden basieren auf innovativen Algorithmen und maschinellem Lernen, um eine hervorragende automatisierte Analyse zu ermöglichen.

Unsere Nutzer senden die gemessenen Tandem-Massenspektren zur Auswertung an unseren Webservice. Dabei können pro Tag Millionen an Tandem-Massenspektren und Terrabytes an Daten anfallen. Um all diese Anfragen effizient abzuarbeiten, flexibel auf steigende Nutzeranforderungen zu reagieren und unseren Kunden einen zuverlässigen und schnellen Service zu bieten, soll im Rahmen dieses Projekts ein effizienteres und leistungsfähigeres Backend für unsere SaaS-Software entwickelt werden, welches Millionen von Anfragen pro Tag in einer skalierenden Cloud-Infrastruktur bearbeiten kann. Das beinhaltet die Worker-Instanzen, die Anfragen abarbeiten, aber auch die interne Kommunikation innerhalb des Backends sowie zwischen Frontend-Software und Backend-Software.

Die zu entwickelnde Kommunikations-Infrastruktur soll ein faires Scheduling zwischen Anfragen verschiedener Nutzer sicherstellen und hocheffizient Anfragen im Backend verteilen. Da die Anfragen komplex und rechenzeitintensiv sind, erfordert dies eine ausführliche Evaluation von vorhandenen Frameworks und spezifische Anpassungen. Robuste Protokollierung der Anfragen muss garantiert sein, um die volumenbasierten Lizenzmodelle abzurechnen. Weiterhin sollen Leerlaufzeiten verringert werden, um Energie zu sparen und laufende betriebliche Kosten zu senken.

Der Umstieg auf skalierbare Infrastruktur in der Cloud ist weltweit ein großes Thema. Um unseren Kunden bei kontinuierlichem Wachstum professionelle SaaS-Lösungen anzubieten, ist eine robuste und effiziente Software-Infrastruktur zur automatischen Bearbeitung aller Anfragen unerlässlich. Mit diesem Projekt wollen wir unsere Position als modernes und innovatives Softwareunternehmen weiter stärken.

Das vom Freistaat Thüringen geförderte Vorhaben (Nr. 2023 INP 0022) wird durch Mittel des Europäischen Sozialfonds (ESF) Plus kofinanziert.

The easy way to comprehensive structure elucidation​

SIRIUS is proven to be the best computational method for identifying molecules from tandem mass spectrometry data. SIRIUS is the umbrella application comprising molecular formula identification (ZODIAC), structure database search (CSI:FingerID), confidence score assignment (COSMIC) and compound class prediction (CANOPUS).​

Share