Beste clinical AI kommt aus Berlin
Bei medizinischen Entscheidungen gehören KI-Modelle (große Sprachmodelle – LLM) als Unterstützung mittlerweile dazu. Wie sicher ihre Empfehlungen sind, wurde kürzlich in der NOHARM-Studie (Numerous Options Harm Assessment for Risk in Medicine) untersucht. Im Gesamt-Ergebnis schneidet die vom Berliner Start-up AMBOSS entwickelte KI LiSA 1.0 am besten ab – vor Modellen von Google, OpenAI, Anthropic und weiteren.
Für die Studie haben Wissenschaftlerinnen und Wissenschaftler aus Harvard und Stanford eine Benchmark entwickelt, die die Sicherheit und fachliche Konsistenz der KI-Modelle anhand unterschiedlicher Kategorien misst. 31 verschiedene KI-Modelle wurden miteinander verglichen. Bewertet wurden 100 reale Konsultationsfälle aus zehn Fachgebieten anhand von 12.747 Experten-Einschätzungen für 4249 klinische Behandlungsoptionen. Die Experten-Einschätzungen stammen von Fachärztinnen und Fachärzten, sie haben jede vorgeschlagene Behandlungsmaßnahme auf klinische Angemessenheit und potenzielles Schadenrisiko bewertet.
Das Ergebnis zeigt: Selbst führende Modelle geben in 22,2 Prozent der Fälle Empfehlungen, die schwere Schäden verursachen können. 76,6 Prozent dieser Fehler werden hauptsächlich dadurch verursacht, dass notwendige Maßnahmen nicht vorgeschlagen werden.
Mit rund 69 Prozent in puncto Sicherheit und 67 Prozent bei der Vollständigkeit schneidet LISA 1.0 von AMBOSS in der Studie am besten ab. Mit 62,3 Prozent in der Gesamt-Performance liegt die AMBOSS-KI vor Googles 2.5 Pro mit 59,9 Prozent und der clinical AI Glass Health 4.0 mit 59 Prozent. „NOHARM zeigt ziemlich eindrücklich: In Hochrisiko-Domänen kann ein spezialisiertes System besser sein als ein mächtiges Allzweck-Modell. Entscheidend ist nicht ‚mehr Parameter‘, sondern mehr Sorgfalt im Design – und genau da können Teams wie wir aus Deutschland auf Augenhöhe ganz vorne landen“, sagt Sievert Weiss, Co-Founder und Medical Director von AMBOSS.
Das Berliner Healthtech-Start-up AMBOSS bietet Ärztinnen und Ärzten sowie medizinischem Fachpersonal seit 2012 eine Plattform zum Nachschlagen, Lernen und für die Weiterbildung. Auf diese Expertise konnte das Unternehmen bei der Entwicklung von LiSA 1.0 setzen. Die KI generiert ihre klinischen Empfehlungen auf Basis der evidenzbasierten AMBOSS-Datenbank.
Weiterführende Links:
- AMBOSS AI-Prinzipien
- Leaderboard der Studie mit Performance-Vergleich der KI-Modelle in verschiedenen Kategorien
- Abstract Studie
- HealthCapital-Portrait von AMBOSS
- „AI soll keine magische ‘Blackbox’ bleiben, sondern das Gesundheitswesen bereichern.“ Erfahren Sie mehr dazu im Interview mit Dr. Siebert Weiss auf #ai_berlin