regulation_update

Memora von Microsoft: Skalierbares Gedächtnis für KI-Agenten

von BrunoSan 01. July 2026

Microsoft Research stellt Memora vor: ein KI-Speichersystem mit bis zu 98 Prozent weniger Token-Verbrauch — relevant für KMU mit eigenen KI-Agenten.

Microsoft Research hat mit Memora ein neuartiges Speichersystem für KI-Agenten vorgestellt. Laut Microsoft Research kann das System den Verbrauch von Kontext-Token — den Texteingabeeinheiten, die ein KI-Modell pro Anfrage verarbeitet — um bis zu 98 Prozent senken und gleichzeitig eine Prüfgenauigkeit von 86,3 Prozent auf dem LoCoMo-Benchmark sowie 87,4 Prozent auf LongMemEval erreichen. In internen Tests übertraf es damit bestehende Lösungen wie RAG (Retrieval-Augmented Generation), Mem0, Zep und GraphRAG, wie das Unternehmen in einem Blog-Beitrag mitteilte.

Hintergrund ist die wachsende Erwartung, dass KI-Agenten nicht mehr nur einzelne Chat-Sitzungen, sondern Wochen oder Monate im Kontext behalten — inklusive Präferenzen, Entscheidungen und laufender Projekte. Aktuelle große Sprachmodelle (Large Language Models, LLMs) starten jedoch jede Sitzung bei null und müssen lange Verläufe immer wieder komplett neu einlesen, sodass der Speicher mit wachsendem Wissen fragmentiert und Dubletten entstehen. Die neue Architektur verfolgt einen anderen Ansatz und trennt erstmals, was gespeichert wird, von der Art, wie es abgerufen wird: Eine kurze primäre Abstraktion (6 bis 8 Wörter) dient als stabiler Anker, der vollständige Inhalt bleibt darunter unverändert, ergänzt um kontextbezogene Cue Anchors, die alternative Zugriffswege auf denselben Eintrag eröffnen. Zum Vergleich: Memora speicherte in den Tests nur 344 Einträge pro Konversation, Mem0 dagegen 651 — die halbe Datenmenge bei höherer Genauigkeit.

Was bedeutet das konkret für Ihren Betrieb?

Für KMU, die KI-Assistenten in Kundenkommunikation, Auftragsbearbeitung oder internem Wissensmanagement einsetzen, könnte die neue Architektur mittelfristig die laufenden Kosten pro KI-Anfrage deutlich senken — sofern die Tokenersparnis tatsächlich auf die Rechnung durchschlägt, wie der Analyst Sanchit Vir Gogia von Greyhound Research einordnet. „Ein Vektor-Store findet Text, der relevant aussieht. Ein Unternehmensagent braucht mehr als Ähnlichkeit“, wird Gogia zitiert — er brauche Wissen darüber, was sich geändert hat, was weiterhin gilt und was nicht erinnert werden darf. Wer heute bereits mit RAG oder Mem0 experimentiert, kann den Forschungscode auf GitHub nutzen, um das Konzept in einer Testumgebung nachzubauen und die Passung für den eigenen Betrieb zu prüfen. Allerdings ist der policy-gesteuerte Abrufmodus mit rund fünf bis sechs Sekunden pro Anfrage deutlich langsamer als der einfache semantische Modus, was Echtzeit-Anwendungen wie Chatbots oder Helpdesks im Mittelstand vorläufig ausbremst.

Mittelfristig dürfte die regulatorische Seite der KI-Governance mit den Nachweispflichten des EU-AI-Act zur größeren Hürde werden als die reine Technik, weil Audit-Spuren künftig belegen müssen, warum ein Agent eine bestimmte Information erinnert, aktualisiert oder verworfen hat. Unternehmen, die ihre KI-Architektur langfristig aufstellen, sollten Speicher- und Audit-Konzepte daher frühzeitig mitdenken, noch bevor regulatorischer Druck oder Kundenanforderungen sie dazu zwingen. Diese Architektur wird die fachliche Diskussion um skalierbare KI-Speicher im Mittelstand spürbar beschleunigen.

💡 Handlungsempfehlung: Testen Sie den Memora-Forschungscode aus dem Microsoft-Repository auf GitHub in einer Sandbox gegen Ihre bestehende RAG- oder Mem0-Implementierung, um Tokenersparnis und Abruflatenz für Ihren konkreten Anwendungsfall zu messen.

#KIMittelstand#MicrosoftResearch#KISpeicher#AgentenKI

KI-PraxisAngewandte KI für Entscheider

Memora von Microsoft: Skalierbares Gedächtnis für KI-Agenten

Quellen — nachprüfbar