snoo.at

Context Engineering mit YAML-Frontmatter

Sun, 05 Apr 2026 00:00:00 +0000

Quelle: LinkedIn-Post von Hendrik Hemken (05.04.2026)

Das Problem

600+ Markdown-SOPs, Blog-Entwürfe, Projekt-Notes.
Jeder Claude-Run müsste eigentlich das komplette Dokument lesen, obwohl häufig nur ein Pitch, eine Zusammenfassung oder ein Status gefragt ist.
Ergebnis: Token-Verschwendung, Halluzinationen, Kontextverlust.

Die Idee: Frontmatter als Mini-API

Hendrik versieht jede Notiz mit einem YAML-Header:

title: Instant Summary
status: draft
summary: >
  2-3 Sätze, wozu dieser Text dient
pitch: "Use case / Value prop"
tags: [context, agentic, knowledge]
updated: 2026-04-05

Das Frontmatter dient als Einstiegsanker:
1. Agent lädt nur den YAML-Block.
2. Liest summary, pitch, status.
3. Entscheidet: lohnt sich vollständiges Einlesen?
4. Erst dann folgt body (mit split: true und referenzierter Section).

Warum das funktioniert

Routing statt Brute Force – eine Handvoll Tokens reichen, um „irrelevant“ zu erkennen.
Selbstbeschreibung – pitch/summary geben Claude eine Stimme („So musst du mich verwenden“).
Regeln im YAML – z. B. llm_mode: read_only oder contains_pii: true.

So setzt du es um

Schema definieren – welche Felder braucht dein Team? (Titel, Eigentümer, Zweck, Sensitivity …)
Linting erzwingen – Pre-commit Hook prüft, ob Frontmatter vorhanden ist.
Agent-Flow anpassen – Workflow: load_frontmatter → decide → load_section.
Fallback – wenn YAML fehlt, lade Body + schreibe TODO.

Bonus: Kontext-Cache

Speichere alle YAML-Header als context_index.json (Claude kann danach suchen).
Bilde Vektoren nur aus summary/pitch – spart Embedding-Kosten.

Prompts aus dem LinkedIn-Post

Frontmatter-Creator – kommt in CLAUDE.md, damit jede neue Notiz einen Steckbrief bekommt:
text You are the note-taking agent. Every Markdown file MUST start with YAML frontmatter containing description, date, status, tags, and client/project. Use concise one-line values. After the frontmatter, write the content as usual.
Frontmatter-Reader – liegt im Agent-Workflow, bevor eine Datei geöffnet wird:
text When exploring files: (1) read only the YAML frontmatter and summarize it in one sentence, (2) decide if the body is relevant. Only open the full file when the description or tags match the current task.

RAG vs. Frontmatter

Hendriks Fazit: Für strukturiertes Teamwissen schlagen Ordnerstruktur + Steckbrief oft eine klassische Vektordatenbank. Embeddings verwechseln "Projekt A" und "Meeting C", ein Agent, der description liest, versteht sofort den Unterschied – ganz ohne Pipeline.

Fazit

Ein paar Zeilen YAML reichen, damit Claude & Co. wissen, was ein Dokument ist, warum es existiert und wie es zu lesen ist. Das macht Notizen nicht nur KI-freundlich, sondern auch für Menschen übersichtlicher.

5 Claude-Prompts für Präsentationen – inspiriert von Patrick Winston

Sun, 05 Apr 2026 00:00:00 +0000

Quelle: LinkedIn-Slides (05.04.2026) „5 Claude Code Prompts…“

1. Start any presentation right

You are a Presentation Coach trained on Patrick Winston’s "Empowerment Promise".
Goal: craft the first 60 seconds.
Input: audience, context, topic, desired behavior.
Output:
1) Empowerment Promise (one sentence, specific, no clichés).
2) 60-second opening script (max 130 words, no jokes, no "thank you for coming").
3) List the first thing to delete from my current intro.
Reply in German.

2. Eliminate your slide crimes

You are a Slide-Crime Inspector. Audit the provided slide content (copy/paste) against
Patrick Winston’s top 10 slide crimes (too much text, font < 40 pt, clip art, pointer, etc.).
Return a table: Crime | Why it hurts | Fix (1 sentence).
Finish with a summary "Slide Health Score" (0-10).

3. Make your ideas unforgettable (STAR)

You are a Personal Brand Architect.
Framework: STAR = Symbol, Slogan, Surprise, Salient idea, Story.
For each key point:
- propose one visual/prop symbol
- write a 5-word slogan
- add a surprise hook (fact/stat)
- restate the core idea (15 words)
- sketch a 3-sentence story.
Output as table. Reply in German.

4. Structure any talk that persuades

You are a Persuasion Architect.
Structure = Vision → Proof of Work → Contributions → Call to Action.
Constraints: Vision & Proof must be within the first 5 minutes.
Input: topic, ask, proof assets.
Output:
1) Outline (minute-by-minute, max 20 min).
2) Script snippets for Vision & Proof (<=120 words each).
3) Closing line that mirrors the opening.

5. Use props & stories to teach anything

You are a Teaching Design Specialist.
Design a physical or narrative prop using Tension → Demo → Resolution.
Input: concept, audience, constraint.
Output:
- Prop description (what, how to build)
- Script (Attention grabber, Demo steps, Resolution)
- Guideposts (what to write on slide/board).
Limit total output to 250 words.

Warum das funktioniert

Patrick Winston’s MIT-Style fokussiert auf Empowerment statt Agenda-Folien.
Claude bekommt klare Rollen + Outputs (Tabelle, Outline, Script).
Jede Vorlage reduziert Nacharbeit (Slides kürzen, Hook finden, Struktur bauen).

Tipps

Prompts als Snippets (z. B. in CLAUDE.md) lagern.
Inputs kurz halten, Output kontrollieren (Wortlimits, Tabellen).
Ergebnisse direkt in Slides kopieren & iterieren.

“Die 613 Dateien fühlen sich an wie 10, weil der Agent gelernt hat zu navigieren statt zu lesen.” – @theclaudecode

Wieviel RAM braucht ein lokales KI-System?

Tue, 31 Mar 2026 00:00:00 +0000

Quelle: LinkedIn-Post von Micha Gross „Wieviel RAM braucht ein lokales KI-System?“ (31.03.2026)

1. Erst unterscheiden: VRAM vs. RAM

VRAM (Grafikkarte) bestimmt, welche Modellgröße du in voller Geschwindigkeit fahren kannst. Faustregel: 8 GB VRAM pro 7B-Modell (FP16). Mit Quantisierung (Q4) halbierst du den Bedarf.
System-RAM puffert Kontext, Uploads, Embeddings. Für lokale Chats reichen 32 GB, für RAG/Toolformer-Setups eher 64 GB+.

2. Richtwerte (Stand Q2/2026)

Modellgröße	Empfohlene Quantisierung	VRAM (flüssig)	CPU/RAM-Option
7B (z. B. Llama 3.1 8B)	Q4_K_M	6–8 GB	CPU-Modus: 16 Threads + 32 GB RAM
13B	Q4_K_M/Q5	10–12 GB	CPU: 32 Threads + 48 GB RAM
33B	Q4_K_M	20–24 GB	CPU: 64 Threads + 96 GB RAM (langsam)
70B	Q3_K_S/Q4	40–48 GB	CPU-Betrieb unpraktikabel
405B (Mixtral, Command R+)	nicht empfehlenswert lokal	≥80 GB VRAM + Multi-GPU	Cloud besser

Quelle: Tests mit llama.cpp, vLLM, Nvidia RTX/Blackwell Karten; Erfahrungswerte aus community benchmarks.

3. Reale Builds

„Schreibtisch-KI“ – RTX 4070 (12 GB VRAM), Ryzen 9, 64 GB RAM, 2 TB NVMe → 7B/13B-Modelle, Agent-Experimente, Bild-KI über ComfyUI. Kostet ~2.200 EUR.
„Studio-Server“ – RTX 4090 (24 GB), Threadripper, 128 GB RAM → 33B-Modelle, RAG mit Milvus/Chroma lokal. ~4.500 EUR.
„Team-Rack“ – 2×H100 80 GB oder Blackwell B200, 256 GB RAM, 10 TB NVMe → 70B+ Models, Multi-User. Leasingpreise ≥6k EUR/Monat.

4. Speicher & I/O

NVMe: mind. 2 TB für Modelle, Embeddings, Caches (ein 70B-Modell in mehreren Quantisierungen belegt >200 GB). PCIe 4.0/5.0 lohnt sich.
Network: Für RAG + Multi-User 10 GbE oder schneller (gerade wenn Vektordatenbanken auf separatem Host liegen).

5. Strom & Kühlung

GPU-Workloads ziehen Dauerlast; 4090 ≈ 450 W. Plane Uptime + Geräuschkulisse (AIO oder Server-Rack). Bei 24/7-Betrieb lohnt sich Unterbringung im Serverraum/Colo.

6. Software-Stack

llama.cpp / Ollama für Einzel-GPU-Setups, simple API.
vLLM oder TensorRT-LLM für Multi-GPU & Serve-Layer (durchsatzkritisch).
Modalitäten: Für Vision/Audio brauchst du 2–3 GB VRAM extra (CLIP-Encoder, Whisper). 16 GB VRAM ist sweet spot.

7. Entscheidungshilfe

Nur Chat? → 12 GB VRAM | 32–64 GB RAM.
Code, Toolformer, Embedding + RAG? → 24 GB VRAM | 64–128 GB RAM.
Multi-User / Fine-Tuning? → Multi-GPU, 128 GB RAM+, dedizierte Speicherlösung.

Fazit: RAM ist wichtig, aber ohne ausreichendes VRAM bremst du dich aus. Setz zuerst die GPU-Größe, wähle dann RAM (mind. 2× VRAM) und schnellen NVMe-Speicher. Wer mit 13B-Modellen happy ist, kommt mit 12 GB VRAM + 64 GB RAM aus – alles darüber braucht ernsthafte Hardware oder die Cloud.

AI-first ERP 2026: Wer liefert was – und worauf solltest du achten?

Tue, 31 Mar 2026 00:00:00 +0000

Quellen: SAP Joule Product Page (27.03.2026), Ecosire „AI + ERP Integration“ (19.03.2026), Folio3/NetSuite Guide (10.03.2026), AIMultiple Agentic ERP Overview (05.03.2026).

Marktüberblick

Anbieter	AI-Brand	Highlights	Zielgruppe
SAP	Joule AI	2.100+ Skills, Agenten in Finance/SCM/HR, Joule Studio + MS 365 Copilot-Integration, ISO/IEC 42001	Großunternehmen, hohe Governance-Anforderungen
Microsoft Dynamics 365	Copilot	Azure OpenAI-gestützte Agents für Sales/Finance/Supply Chain, tiefe Power Platform-Integration	Unternehmen mit Microsoft-Stack
Oracle NetSuite	Built-in ML	Forecasting, Invoice-Matching, Fraud Detection „out of the box“ (Add-ons für Advanced Analytics)	SMB bis Mid-Market
Odoo 19	Odoo AI Assistant	LLM-agnostisch, integriert in CRM/Accounting/Inventory, offen für Custom-Module	Startups & KMU, Open-Source-affin
Infor CloudSuite	Coleman AI	Branchenpakete (Manufacturing, Healthcare), Voice/Chat, Predictive Maintenance	Industrie-Fokus
Microsoft Business Central	Copilot	KMU-Version, Q&A über sales/inventory data, produktbeschreibungen, anomaly flags	KMU/Handel

Drei Trends (Ecosire, 19.03.2026)

Natürlichsprachliche Interfaces – alle Großen (SAP, Oracle, Microsoft, Odoo) haben Chat-/Copilot-Ebenen. Ziel: ERP ohne Power-User-Hürden.
Vorausschauende Automatisierung – Demand- und Cash-Forecasts verbessern sich laut Studien um 15–40 %; Autonomous Close reduziert Monatsabschluss von Tagen auf Stunden.
Agentische Architektur – AI-Agenten greifen über APIs auf ERP-Daten zu, orchestrieren Workflows quer durch Finance, SCM, HR.

Vendor-Details

SAP Joule (SAP.com, 27.03.2026)

Agents pro Funktion (Finance, Procurement, HR, Service), orchestrierbar via Joule Studio.
RBAC übernimmt bestehende SAP-Berechtigungen, Daten bleiben tenant-isoliert.
Integration mit Microsoft 365 Copilot: Anwender:innen wählen je nach Workflow den passenden Copilot.

Microsoft Dynamics 365 Copilot (AIMultiple, 05.03.2026)

Supplier Communication Agent mailt Lieferanten, parst Antworten, aktualisiert Bestellungen.
Copilot Q&A über ERP-Daten, generiert E-Mails/Antworten, markiert Planungs-Anomalien.
Power Platform + AI Builder für eigene Bots (Low-Code).

Oracle NetSuite AI (Folio3, 10.03.2026)

AI-Features im Standard: ML-gestützte Forecasts, Anomaly Detection, Smart Suggestions.
Advanced Analytics als Add-ons; eher „einfach konsumierbar“ statt hochgradig konfigurierbar.

Odoo 19 Assistant (Ecosire + AIMultiple)

LLM-agnostisch (OpenAI, Gemini, Open-Source), Kontext pro Modul.
Automatisiert Texte, Follow-ups, Lead-Zuweisung, Summaries.
Offen für eigene Module; geeignet für AI-Experimente im KMU-Bereich.

Kostenmodelle (Folio3, 10.03.2026)

NetSuite: AI inkl., aber Advanced Module zusätzlich.
SAP: Usage-basiert (Business Technology Platform/Joule Services).
Microsoft: Modul + User-Pricing (Copilot/Power Platform Add-ons).
Odoo: AI oft kostenlos/OSS, Customizing nach Aufwand.

Implementierungs-Checkliste

API-Reife & Datenqualität – AI-Layer funktioniert nur mit sauberen Schnittstellen & Stammdaten. Vorab Data Cleansing.
Security & Governance – RBAC-Mapping, Audit-Logs, DSGVO/SOX-Kompatibilität (SAP betont tenant isolation & ISO/IEC 42001).
Pilotfälle auswählen
Finance: Autonomous Close, Journal Drafting, AR Collections.
Supply Chain: KI-Demand Planning, Supplier Agents.
Support/Sales: Copilot Q&A, automatische Antworten.
Phasen laut Ecosire
Phase 1: NL-Query & Analytics (geringes Risiko, hoher Nutzen).
Phase 2: AI-Forecasting (Accuracy messen!).
Phase 3: Anomaly Detection/Fraud.
Human-in-the-loop – Freigaben, Eskalationen, Monitoring definieren.
KPI-Sets – Forecast Accuracy, Cycle Times, User Adoption, Error Rate.

Kostenbeispiel: SAP S/4HANA Cloud + Joule für 100 User

Kostenblock	Annahme	Betrag
Basis-Subscription	SAP S/4HANA Cloud Core (5.000 USD/Monat)	60.000 USD/Jahr
User-Lizenzen	40 Vollnutzer à 210 USD + 60 Self-Service à 55 USD (pro Monat)	140.400 USD/Jahr
Joule AI Consumption	100 User × 20 USD/Monat für Copilot-/Agent-Läufe	24.000 USD/Jahr
SAP BTP/Ai Core Add-ons	AI Units, Monitoring, Integration (Pauschal)	15.000 USD/Jahr
Implementierung (einmalig)	2.500 h Partnerleistungen à 140 USD + SAP Activate	350.000 USD
Change & Training (einmalig)	Enablement, Prompt-Guidelines, Governance	50.000 USD
Run & Enhancements	Interne + Partner-Kapazität für Support (ca. 2 FTE)	80.000 USD/Jahr

3-Jahres-TCO (vereinfachtes Szenario):
- Jahr 1: Subscriptions 239.400 USD + Implementation/Training 400.000 USD + Run 80.000 USD → ~719.000 USD
- Jahr 2: Subscriptions 239.400 USD + Run 80.000 USD → ~319.000 USD
- Jahr 3: Subscriptions 239.400 USD + Run 80.000 USD → ~319.000 USD
- Summe 3 Jahre: ~1,36 Mio. USD (Vor Rabatten).

Hinweise:
- SAP gewährt bei 100 Usern oft 15–30 % Mengenrabatt.
- Joule-Verbrauch kann stark schwanken (Heavy Usage: +10–15 USD/User/Monat; Light Usage: <10 USD).
- Kosten für Integration mit Non-SAP-Systemen (iPaaS, Data Lake) sind nicht enthalten.
- Einsparpotenziale: Self-Service-Lizenzen weiter erhöhen (z. B. 50/50 Split) oder Joule nur für Power User freischalten.

Fazit

„AI-first ERP“ heißt: Assistants + Agents sind fester Bestandteil des Systems, nicht nur ein externer Chatbot. SAP & Microsoft liefern aktuell die tiefste Integration, Odoo bleibt die flexibelste Open-Source-Option.
Wichtiger als Vendor-Marketing: Datenqualität, Governance und ein schrittweiser Roll-out. Wer das beherzigt, holt echte Produktivität aus den neuen Copilots – statt nur ein Demo-Video.

Threat Hunting & Digital Forensics: Drei Learnings aus dem LinkedIn-Thread

Sat, 28 Mar 2026 00:00:00 +0000

Quelle: LinkedIn-Post „Cybersecurity · Digital Forensics · Threat Hunting“ (28.03.2026)

1. Hunting funktioniert nur mit Hypothesen

Statt „schau mal, ob etwas verdächtig ist“: konkrete Annahmen formulieren, z. B. „Ein Angreifer nutzt OAuth-Apps, um persistente Sessions aufzubauen“.
Hypothese → welche Datenquellen brauche ich? (z. B. Azure Sign-Ins, M365 Audit, Endpoint Events)
Ergebnis dokumentieren, selbst wenn „nichts gefunden“ – das verbessert die Coverage-Map.

2. DFIR & Hunting teilen sich Daten, aber nicht Aufgaben

Hunting = proaktiv, wiederkehrend, sucht nach Mustern.
Digital Forensics = reaktiv, rekonstruiert einen konkreten Vorfall.
Gemeinsame Basis: saubere Telemetrie (EDR, DNS, Proxy, SaaS-Logs) + Retention > 90 Tage.
Teams sollten ihre Playbooks gegenseitig reviewen: Was wir im Incident gelernt haben, wird zur neuen Hunting-Query.

3. Tooling ist Mittel zum Zweck

SIEM/EDR allein liefern keine Antworten. Braucht Content (Sigma, KQL-Fragmente) + Kontext (Asset-DB, IAM).
Low-Code-Automationen (SOAR) nehmen Routinearbeit weg: Ticketing, Anreicherung, Eskalation.
Visualisieren: Zeitleisten & Relationship-Graphs helfen, Findings Nicht-Techies zu erklären.

Quick Start für Mittelständler

3 wichtigste Use-Cases definieren (z. B. Sensible Datenabflüsse, Privileged Escalations, MFA-Bypass).
Log-Sources Priorität A: AD/AAD, EDR, Mail-Security, VPN.
Playbook inkl. „Verdacht -> Analyse -> Eskalation“.
Ritual: Wöchentlicher Hunting-Slot (1–2h) + Retro.
Archiv: Findings, Queries, Lessons Learned zentral ablegen.

Warum das Ganze?

Je mehr Automatisierung (AI, SaaS), desto mehr Angriffsfläche. Hunting & Forensics sind das Frühwarnsystem.
Eine gute Hunting-Kultur fängt Vorfälle oft ab, bevor sie zum DFIR-Großbrand werden.
Dokumentation + Austausch schaffen Transparenz und helfen bei Audits.

Fazit: LinkedIn-Threads erinnern uns daran: Threat Hunting ist kein Buzzword, sondern Handwerk. Hypothese, Daten, Disziplin – und der Rest wird Routine.

Euro-Office: Nextcloud & Ionos fork OnlyOffice – was steckt drin?

Sat, 28 Mar 2026 00:00:00 +0000

Quelle: Heise, „Microsoft-Alternative: Nextcloud und Ionos entwickeln quelloffenes Euro-Office“ (28.03.2026)

Was passiert?

Projektname: „Euro-Office“ – eine quelloffene Office-Suite, entwickelt von Nextcloud & Ionos plus Partnern.
Basis: Fork der Open-Source-Bestandteile von OnlyOffice (statt Collabora/LibreOffice).
Release: Erste stabile Version im Sommer 2026, Tech Preview liegt schon auf GitHub (https://github.com/Euro-Office/).
Einsatz: Soll Collabora in Nextcloud & im Ionos Nextcloud Workspace ablösen; Zielgruppe reicht vom KMU bis zum öffentlichen Sektor.

Warum OnlyOffice statt Collabora?

Modernere Architektur, reaktiveres UI (Zitat Frank Karlitschek: LibreOffice ist „35 Jahre alt“ und im Browser „nicht das innovativste“).
Trotzdem bleibt Collabora Partner – ggf. fließen Komponenten ein.

Sicherheit & Herkunft

OnlyOffice stammt ursprünglich aus Russland → Nextcloud/Ionos haben den Code auditieren lassen.
Nicht-Open-Source-Komponenten wurden neu gebaut.
Statement Karlitschek: „Für unsere Version können wir die Hand ins Feuer legen“ – plus Einladung an die Community, selbst zu prüfen.

Positionierung vs. openDesk & MS Office

openDesk (ZenDiS) nutzt bisher Nextcloud + Collabora. Euro-Office soll sich durch tiefere Integration und KI-Funktionen unterscheiden.
openDesk kann Euro-Office als Komponente übernehmen – es bleibt open source.
Ziel: europäische Souveränität statt US-Lock-in, inklusive Public-Sector-Zulassungen.

Partner-Ökosystem

Unterstützer u. a. XWiki, Soverin, OpenProject, EuroStack-Initiative.
Plan: jeweils „zweistellige Entwickler-Teams“ bei Nextcloud & Ionos.
Aufruf an öffentliche Stellen & Zivilgesellschaft, mitzucoden.

Warum das relevant ist

Vendor Independence – Öffentliche Stellen bekommen eine ernsthafte EU-gehostete Office-Option.
Integration – Nextcloud als Hub, Office als Komponente → weniger Medienbrüche.
Auditability – Fork + eigener Build-Prozess → Supply-Chain unter Kontrolle.
Community-Versprechen – GitHub-Repo offen, Contributions erwünscht.

Offene Fragen / Watchlist

Lizenz & Governance (Foundation? CLA?)
Kompatibilität zu MS Office (OOXML Roundtrip?)
KI-Funktionen: lokal oder via Hyperscaler?
Roadmap für Mobile & Offline?

Fazit: Euro-Office ist mehr als Marketing – Nextcloud & Ionos stemmen ein komplettes Office-Stack-Forking, um Collabora zu ersetzen und Souveränität zu pushen. Wer heute bereits Nextcloud einsetzt, sollte die Tech Preview testen und Feature-Wünsche platzieren, bevor der Sommer-Release festgezurrt ist.

RAG für alle: So holt die KI brauchbare Antworten aus eurem Wissen

Sat, 28 Mar 2026 00:00:00 +0000

Angelehnt an Holger Wölfles LinkedIn-Post vom 28.03.2026

RAG (Retrieval Augmented Generation) heißt übersetzt: „Die KI schaut erst in deinen Wissensordner, bevor sie antwortet.“ Damit das klappt, braucht es drei Dinge – egal ob du in HR, Compliance oder IT sitzt.

1. Inhalte aufräumen und aktuell halten

Verantwortliche: Jede Quelle (Wiki, Laufwerk, Teams-Ordner) hat eine:n Owner, der entscheidet, was rein darf und wann es aktualisiert wird.
Stand der Dinge: Dokumente ohne Datum oder Freigabe fliegen raus oder bekommen ein Etikett („Entwurf“, „veraltet“).
Sensible Infos: Personaldaten, Verträge etc. werden vor dem Upload geschwärzt oder kommen in einen eigenen, geschützten Bereich.

Bildlich gesprochen: Erst das Archiv sortieren, dann die KI hineinlassen.

2. Die KI muss richtig suchen können

Stichwort + Bedeutung: Gute Systeme kombinieren klassische Volltextsuche („Finde das Wort“) mit Bedeutungssuche („Meint dasselbe“). Das erhöht die Trefferquote.
Filtern: Die KI sieht nur das, was der aktuelle Benutzer auch sehen darf. Rechte werden vor dem Suchen geprüft.
Feedback: Nutzer:innen markieren, ob eine Antwort geholfen hat. Aus diesen Rückmeldungen lernt der Suchteil ständig weiter.

Ziel: Die KI findet die 3 wichtigsten Dokumente statt 300 irrelevanter PDFs.

3. Leitplanken & Protokolle

Fragentracking: Jede Frage speichert Quelle + Antwort. Damit lassen sich Fehler nachstellen.
Regeln: Wer darf welche Wissenssammlung abfragen? Darf die KI z. B. Bestellungen auslösen oder nur informieren?
Notfallplan: Was tun, wenn falsche oder vertrauliche Antworten auftauchen? Wer wird benachrichtigt?

Damit bleibt die KI nachvollziehbar – und niemand wundert sich, wo eine Aussage herkam.

Kurze Checkliste für dein Team

Besitzt jemand das Thema? (Content Owner)
Sind Dokumente beschriftet? (Datum, Status, Freigabe)
Wer darf was sehen? (Rechte geprüft?)
Gibt es Feedback? („Hilfreich / Nicht hilfreich“-Button)
Gibt es ein Logbuch? (Fragen & Antworten werden gespeichert)
Ist ein Notfallplan definiert? (Kontakt, Reaktion, Abschaltung)

Warum sich der Aufwand lohnt

Kolleg:innen finden Antworten schneller und verlassen sich auf nachvollziehbare Quellen.
Compliance & Datenschutz bleiben gewahrt, weil du weißt, wer was gesehen hat.
Die KI liefert konsistente Ergebnisse – unabhängig davon, ob gerade jemand aus Sales, Recht oder Support fragt.

Fazit: RAG ist weniger Technik als Organisation. Wenn Inhalte gepflegt, Suche smart und Regeln klar sind, wird die KI zum verlässlichen Assistenten – auch für Nicht-Techies.

Claude-Software-Builder: Was Christian R. zeigt – und worauf Unternehmen achten sollten

Sat, 28 Mar 2026 00:00:00 +0000

Quelle: Christian R., LinkedIn-Post „Claude Software + AI“ (28.03.2026)

Was Christian zeigt

Drag & Drop statt Code: Claude-Software-Builder erlaubt komplette Workflows (Formulare, Buttons, API-Calls) direkt im Chat.
Schnelle Experimente: Innerhalb von Minuten steht ein MVP (z. B. Anfrageformular + E-Mail-Responder).
„Prompt = Produkt“: Business-User beschreiben Ziel + Datenquellen, Claude baut UI + Logik.

Die Chancen

Zeitgewinn – Citizen Devs bauen interne Tools ohne Wartezeit auf die IT-Queue.
Kundennähe – Teams testen Ideen direkt mit Endanwender:innen.
Standardisierung – Wiederverwendbare Komponenten (E-Mail-Parser, CRM-Connector, Tabellen).

Die Stolperfallen

Datenzugriff: WER darf WAS anbinden? (CRM, ERP, personenbezogene Daten)
Versionierung: Prompt/Workflow-Änderungen müssen nachvollziehbar sein.
Qualität: Schon kleine Prompt-Fehler führen zu falschen Automationen.
Security: Jede neue Integration braucht Secrets, ACL, Logging.

Guardrails, die wir empfehlen

Bereich	Guardrail
Identität	Single Sign-On + Rollen (Citizen Dev vs. Reviewer)
Prompt-Versionierung	Git-Repo oder internes Registry-Feature für Prompts/Flows
Secrets	Vault + „Connect via Service Account“, niemals Plaintext im Prompt
Tests	Sandbox-Modus + Unit-Tests (z. B. Beispiel-Inputs + erwartete Outputs)
Monitoring	Log aller Eingaben/Ausgaben, Fehler-Alarme, Kostenanzeigen
Review-Prozess	4-Augen-Prinzip vor Prod-Deploy, Checkliste inkl. Datenschutz

Beispiel-Workflow (HR-FAQ)

HR-Team beschreibt die Fragen (Urlaub, Krankmeldung, Benefits).
Claude baut Formular + Antwort-Logik („Wenn Frage = Urlaub → fetch Policy aus Confluence“).
Reviewer prüft Texte, Datenpfade, Logging.
Rollout an Pilotgruppe, Feedback direkt im Tool.

So startet ihr

Space für Prototypen: Eigenes Tenant mit Testdaten.
Bausteine definieren: Welche Systeme dürfen angebunden werden? (z. B. ServiceNow, Slack)
Playbooks schreiben: Checklisten für neue Claude-Apps (Scope, Daten, Tests, Owner).
Community pflegen: Show-and-Tell-Sessions, damit Teams voneinander lernen.

Fazit: Claude-Software-Builder senkt die Hürde, kleine Business-Apps zu bauen. Wer Governance + Guardrails nicht vergisst, bekommt schnelle Innovation ohne Sicherheitskopfschmerzen. Christian R. liefert das Proof-of-Concept – jetzt heißt es, das Prinzip ins eigene Unternehmen zu überführen.

ARC-AGI-3 Preview: 30 Tage Interactive-Reasoning-Realität

Fri, 27 Mar 2026 00:00:00 +0000

Quelle: ARC Prize Foundation, „ARC-AGI-3 Preview: 30-Day Learnings“ (27.03.2026)

3 schnelle Takeaways

Menschen > Agenten – Über 1.200 Spieler:innen haben 3.900 Runs absolviert, viele „speedrunnen“ die Level auf theoretische Minimalpfade. Agents brauchen ein Vielfaches an Aktionen.
Random Search ist (noch) zu gut – Einige Games ließen sich bruteforcen; die finale Benchmark wird brute-force-resistenter.
Action Efficiency als Intelligenzsignal – Statt nur „erreicht / nicht erreicht“ zählt jetzt das Verhältnis zwischen Umgebungsinformationen und erfolgreichen Aktionen (inspiriert von Chollets Measure of Intelligence).

Warum Interactive Reasoning Benchmarks (IRBs)?

On-the-fly Learning: Keine Pattern-Memorisierung, jede Umgebung ist neu.
Exploration: Können Agents gezielt Informationen sammeln?
Memory & Goal Setting: Zwischenschritte planen, langfristige Ziele ableiten.
Action Efficiency: Wie viele Schritte braucht man wirklich?

IRBs simulieren damit echte „Drop you into a new world“-Szenarien – ein Maßstab, den statische Benchmarks nie abgedeckt haben.

Die Preview-Games (öffentlich)

Game	Typ	Kurzbeschreibung
ls20	Agentisch, Map-basiert	Symbol transformieren & zum Ziel navigieren
ft09	Nicht-agentisch, Logik	Muster matchen, inkl. Überlappungen
vc33	Orchestration	Volumen mehrerer Objekte angleichen

Plus drei private Games als Hidden Holdout für den Wettbewerb (Release folgt).

Scoring-Framework

Aktionen zählen (pro Level) → Plotten vs. Fortschritt
Baseline: Kontrollierte Human-Studie (>200 Personen) für die finale Version
Exploration vs. Execution getrennt bewerten
Score = Action-Effizienz pro Level vs. Human-Baseline, normalisiert pro Game, gemittelt über alle Games → 0–100 %

Dieses Setup spiegelt Tenenbaum et al. (Human-Level RL via Theory-Based Modeling, Exploration, and Planning) und Klassikern wie Dijkstra/A*.

Humans vs. AI

Menschen verbringen wenige Aktionen auf Exploration, dann präzise Execution.
Brute-Force-Agents brauchen 10–100× mehr Aktionen → ineffiziente Informationsnutzung.
Visualisierung: Aktionsbudget (x) vs. Level (y) zeigt Varianz pro Game + Minimalpfade.

Agent Preview Competition (30 Tage)

Setup: Öffentliche Games + API (Hugging Face Sponsoring), Bewertung auf 3 privaten Levels. 12 Einreichungen, 8 auf Holdout getestet.

Platz	Team / Repo	Ansatz	Score
1	StochasticGoose @ Tufa Labs	CNN Action-Learner (predictet frame changes)	12.58 %, 18 Level
2	Blind Squirrel	State-Graph + ResNet18 Value Model	6.71 %, 13 Level
HM	Play Zero Agent, Explore It Till You Solve It, Fluxonian	DSL/LLM + Graph + Video Loop	2–8 %

Selbst der Sieger bleibt bei 12.58 % – ein massives Gap zur menschlichen Effizienz.

Lessons Learned & Roadmap

Undo & UI-Hints: Spieler wollten Rückgängig-Funktion und klarere Aktionshinweise. Kommt noch.
Docs & API: Wechsel auf Mintlify reduzierte Friction.
Offline Engine: Viele Teams wollen lokal trainieren → Engine in Arbeit.
Early Exit & Caps: Manche Replays wurden >10 GB, künftig wird gebremst.

Was wir daraus mitnehmen

Benchmarks neu denken – Gute LLM-Scores ≠ gute Weltmodelle. Interaktive Tests liefern ein besseres Bild.
Effizienz > Accuracy – „Intelligence is efficiency.“ Score-Frameworks sollten Aktionskosten standardmäßig messen.
Agent-Tooling – Self-play + World Models + Memory sind Pflicht, sonst bleiben Agents beim Brute-Force-Hopping.
Evals als Produkt – Gute Onboarding-Doku + Undo + Offline-Support entscheidet, ob die Community mitmacht.

Wir bauen in unseren eigenen Projekten jetzt konsequent Action-Effizienz-Logging & Human-Baselines ein – wer nur Accuracy tracked, übersieht 90 % der Story.

KI-Supply-Chain: Was Konstantin Arshinsky warnt – und was wir tun sollten

Thu, 26 Mar 2026 00:00:00 +0000

Konstantin Arshinsky (KI & Cybersecurity) erinnert auf LinkedIn daran, dass sich Supply-Chain-Angriffe im KI-Zeitalter verdoppeln: klassische Software-Lieferkette plus neue Ebenen (Modelle, Daten, Toolchains). Hier die wichtigsten Punkte aus seinem Post (Link) – ergänzt um unsere eigenen Playbooks.

Drei neue Angriffsflächen

Modelle & Weights
Unsichere Downloads (GGUF, Safetensors, Wheel-Dateien) → Malware oder Backdoors.
Model-Zoos/Cache-Server ohne Signature-Check.
Tooling & Plugins
LLM-Agents laden Plugins (Browser, Email, Slack) → jede Integration kann kompromittiert werden.
Bring-Your-Own-Tools (z. B. litellm) aus dubiosen PyPI-Repos.
Datenketten
RAG-Indizes, Embedding-Stores, Data Lakes – vergiftete Quellen = vergiftete Antworten.
„Data Drifts“ werden zu Angriffen (Prompt Poisoning über Wissensdatenbanken).

Gegenmaßnahmen (Quick Wins)

Ebene	Risiko	Gegenmaßnahme
Modelle/Weights	Manipulierte Downloads	SHA256-Signaturen, `pip install --require-hashes`, isolierte Build-Pipelines
Dependencies	Supply-Chain via npm/pip	SBOM (CycloneDX), `pip-audit`, Dependabot + manuelles Review
Tooling/Plugins	Bösartige Actions	Whitelist + RBAC, Secrets nur per Vault, Audit-Log je Plugin
Data/RAG	Poisoned Sources	Zero-Trust-Feeds, tägliche Checksums, Data Provenance, Canary Queries
Runtime	Missbrauch von Tokens	Least-Privilege API Keys, JIT-Secrets, Kill-Switch pro Agent

PwC-Spotlight: Angriffsfläche auf einen Blick

PwC fasst die Supply-Chain für KI so zusammen:

Plugins & Agent-Tools: Jede neue Capability erhöht das Risiko, wenn Berechtigungen nicht strikt limitiert werden.
RAG-Quellen & Vektordaten: Externe Inhalte fließen ungeprüft ein – vergiftete Dokumente erzeugen plausible Fehlinformationen.
Prompts & Deployment-Artefakte: Systemprompts, Policies, Releases sind Steuerlogik und müssen versioniert/auditiert werden.
Trainingsdaten: Herkunft & Integrität bestimmen das Modellverhalten – Manipulation bleibt oft lange unentdeckt.
Pretrained Modules & Model Hubs: Zeitgewinn vs. Fremdrisiko.
Open-Source Libraries: Klassische Dependencies bleiben ein Einfallstor.

OWASP stuft Supply-Chain bei ML & LLM jeweils unter die Top-Bedrohungen ein: Kompromittierte Packages/Modelle wirken indirekt, bleiben aber lange unerkannt, weil Antworten weiterhin "plausibel" aussehen.

Weitere Quellen & Zitate

OWASP Top 10 for LLM Applications (2024): Supply-Chain Interference ist Risiko A05 – "trust boundaries between models, plugins and data sources must be enforced" (OWASP).
OWASP ML Top 10 (v1): Supply-Chain ranked #6, warnt vor manipulierten Model-Weights, Datenpipelines und MLOps-Stacks (OWASP ML).
ENISA AI Threat Landscape 2023: Kapitel 4.3 beschreibt Poisoning/Dependency-Attacken auf KI-Supply-Chains und empfiehlt Hash-Verifikation + SBOMs (ENISA).
MITRE ATLAS (Attack Library for AI Systems): Techniken wie ALT-T004 Poison ML Supply Chain zeigen, wie kompromittierte Artefakte in Model Pipelines eingeschleust werden (MITRE ATLAS).

Diese Quellen liefern zusätzliche Controls (SBOM, Hashing, Access Control), die in unser Playbook eingeflossen sind.

Unser Playbook

Signierte Artefakte: Modelle nur von Hosts mit HTTPS + Hash; Container via Cosign signieren.
SBOM Pflicht: Jede KI-Komponente bekommt eine CycloneDX-BOM im Repo (make sbom).
Secrets & Vault: Keine Keys mehr in .env; Tailscale/Vault liefert Just-in-Time-Tokens.
Observability & Alerts: Langchain/Claude-Logs laufen in Loki; Alert bei ungewöhnlichen Tool-Calls.
Incident Runbook: „LLM Supply-Chain Incident“ → isolieren, Revocation-Liste, Kunden-Benachrichtigung, Root Cause.
Education: Dev-Teams bekommen monatlich ein „malicious dependency“ Walkthrough.

Incident Pattern: „Verdächtiges Modell-Update"

Auslöser: Neues GGUF/Wheel landet im internen Model-Cache. Minuten später melden Services Anomalien (ungewohnte API-Calls, erhöhte Token-Kosten).

1. Detection & Triage
- Hash-Vergleich gegen freigegebene Liste.
- Check: Hat jemand pip install / hf_hub_download außerhalb der CI gemacht?
- Alerts (Loki/Datadog): Welche Agents verwenden das neue Modell?

2. Containment
- Sofortiger Kill-Switch für betroffene Agents (Traffic → Null).
- Secrets rotieren, die in den letzten 24h genutzt wurden.
- Cache leeren, Deployments auf letzte bekannte Version zurückrollen.

3. Eradication & Forensics
- SBOM & Git-History prüfen: Woher kam das Artefakt? Wer hat zugestimmt?
- Artefakt offline analysieren (strings, Sandbox-Lauf).
- IOC-Liste (Hashes, Domains) ins SIEM einspeisen.

4. Recovery
- Modelle frisch bauen, signieren, verteilen.
- Agents kontrolliert hochfahren, Copy-On-Write-Cache nutzen.
- Kunden informieren, falls Datenabfluss möglich ist.

5. Lessons Learned
- RCA dokumentieren, Policies/Automation anpassen (kein direkter Cache-Zugriff, Mandatory Review für requirements.txt).

Fazit

KI-Supply-Chain ist kein neues Buzzword – es ist der logische Nachfolger von SolarWinds & Log4Shell, nur mit mehr beweglichen Teilen. Wer Modelle, Daten und Plugins wie echte Produktions-Binaries behandelt (Signaturen, Reviews, Observability, Kill-Switch), bleibt handlungsfähig. Alles andere ist Hoffnung – und Hoffnung ist kein Sicherheitskonzept.

Security-Checklist für Claude Code & Co.

Thu, 26 Mar 2026 00:00:00 +0000

LinkedIn-Bild des Tages: Paul Joshua Kramer (cybersec architect) mit seiner "Claude Code App Security Checklist". Acht simple Punkte – und trotzdem stolpert fast jedes AI-Projekt über mindestens zwei davon. Hier die Liste in Textform, dazu ein paar Ergänzungen aus unserer Erfahrung.

Pauls Liste (übersetzt & kondensiert)

Authorization: Wer darf eigentlich was? Granulare Rollen, Token-Scopes, Policy-as-Code.
Input Validation: Prompts, Files, URLs → alles sanitizen, Escape-Filter vor API-Calls.
Rate Limiting: Nicht nur OpenAI/Anthropic, auch intern (Hooks, Webhooks, Plugins).
Fail-Safe Defaults: Wenn etwas unsicher ist → Block. Keine heimlichen Fall-Throughs.
Error Handling: Stacktraces gehören in Logs, nicht ins User-UI. Maskiere Secrets.
Observability Alerts: Metriken, Logs, Trace – und echte Alerts mit Ownership.
Staging (pre-prod): LLM-Flows zuerst in isolierten Test-Umgebungen fahren.
Post-Prod Monitoring: Laufende Audits, Pen-Tests, Replay-Checks.

Quelle: LinkedIn-Post von Paul Joshua Kramer

Praxis-Erweiterungen

Block	Warum	Tooling/Beispiel
Secrets & Config	Claude-Code-Apps verarbeiten API-Keys, Kundendaten → .env in Vault, Rotations-Plan, keine Keys in Logs.	Doppler, Hashi Vault, AWS Secrets Manager
Dependency Hygiene	Supply-Chain-Angriffe (z. B. Fake „litellm“ auf PyPI) treffen AI-Stacks hart. Hash-Pinning + `pip-audit`.	pip-tools, Poetry.lock + `pip install --require-hashes`
Data Classification	Welche Daten landen im Prompt? Maskieren? Tokengrenzen? Definiere PII-Level & Speicherorte.	Data Catalog, Open Policy Agent
Kill-Switch & RBAC	Jede Runtime braucht einen großen roten Button (Disable Workflows) + feinmaschiges RBAC (z. B. IAM + OPA).	Grafana OnCall, LaunchDarkly
Human-in-the-Loop	Code- oder Action-Review via Four-Eyes (PR-Gates, Anthropic Tool Use Approvals).	GitHub Checks, Slack Approval Bots

Quick Checklist für dein Projekt

[ ] Perimeter: TLS überall, Redirects geschlossen, WAF an oder Cloudflare Turnstile.
[ ] Identity: OIDC / SSO statt Custom JWT, Secrets im Vault, Tokens revoken können.
[ ] Data Path: Prompt-Filter (Regex, Schema-Validator), Logging mit PII-Redaction.
[ ] Runtime: Resource-Quotas, Liveness/Readiness-Checks, Auto-Restart (Supervisor/systemd).
[ ] Supply Chain: SBOM (CycloneDX), Dependabot/Mend, Signaturprüfung bei Container-Pulls.
[ ] Incident Runbook: Wer macht was, wenn Claude plötzlich SSH-Befehle spammt?

Fazit

LLM-Coding-Stacks sind nur so sicher wie ihre kleinste Automatisierung. Pauls Poster ist ein guter Start – aber setzt noch eine Schicht drauf: Secrets, Supply Chain, Observability und vor allem ein Kill-Switch. Wer Claude Code „einfach laufen lässt“, baut sich schneller einen Angriffsvektor als ein Feature.

Bonus: Ich arbeite gerade an einem YAML-Template (security-checklist.yml), das man bei jedem Claude-/Cursor-Projekt in den Repo-Root legen kann. Ping mich, wenn du Betatester:in sein willst.

Werkzeugkoffer für Penetrationstests (2026 Edition)

Wed, 25 Mar 2026 00:00:00 +0000

In LinkedIn-Feeds kursieren regelmäßig Tool-Listen à la „Speicher dir das für später“. Statt eines Screenshots bekommst du hier eine kuratierte Version mit Links, Einstiegstipps und Praxis-Hinweisen, damit du nicht nur Namen, sondern auch Handlungsanleitungen hast.

1. Core Frameworks & Plattformen

Metasploit Framework

Was es ist: Exploitation-Plattform mit tausenden Modulen für Clients, Server, IoT.
Start: curl https://raw.githubusercontent.com/rapid7/metasploit-omnibus/master/config/templates/metasploit-framework-wrappers/msfupdate.erb > msfinstall && chmod 755 msfinstall && ./msfinstall
How-To: Offizielle Doku + den Metasploitable 2 VM Walkthrough als erstes Ziel benutzen.

Kali Linux

Warum: Rolling Release mit vorinstallierten Security-Tools (auch ARM/VM-Versionen).
Start: Kali Downloads → VM/WSL/ARM auswählen, sudo apt update && sudo apt install kali-linux-large für Vollausstattung.

2. Web Security Testing

Tool	Fokus	Quick Links
Burp Suite	Web-Proxy, Scanner, Repeater	Burp Community + Academy Labs
OWASP ZAP	Open Source Webscanner	`docker run -u zap -p 8080:8080 -i owasp/zap2docker-stable`
Acunetix / Invicti	Kommerzieller Scanner (XSS/SQLi)	Trial
SQLmap	Automatisierte SQL-Injection	`sqlmap -u "https://target/login?user=1" --dbs`
WPScan	WordPress Vulnerabilities	API-Key anfordern → `wpscan --url https://example.com --api-token <key>`

Praxis-Flow: Proxy (Burp/ZAP) einschalten → Applikation manuell erkunden → Scanner laufen lassen → Findings mit SQLmap/WPScan verifizieren.

3. Network & Reconnaissance

Nmap – nmap -sC -sV -O 10.10.10.0/24 (Default-Skripte, Version, OS). Cheat-Sheet: nmap.org
Wireshark – Paket-Analyse; CLI-Variante tshark. How-To: Wireshark Labs
Masscan/Rustscan (Bonus) – wenn du Millionen Ports prüfen musst.

4. Password & Exploitation

Tool	Use-Case	Getting Started
John the Ripper	Hash-Cracking	`john --format=nt hashes.txt` + JtR Jumbo
Aircrack-ng	Wi-Fi Audits	Monitor-Mode `airmon-ng start wlan0`, Deauth + capture handshake, `aircrack-ng -w wordlist handshake.cap`
BeEF	Browser Exploitation	Github → ideal im Lab mit älteren Browsern
PowerShell Empire	Post-Exploitation (Windows)	BC-Security Fork

5. Advanced & Enterprise

Nessus Essentials – kostenlose 16-IP-Version, Download inkl. Setup-Wizard.
Astra Pentest – SaaS/Service-Hybrid; wenn dir Reporting/Retesting wichtig ist.
Indusface WAS – DAST + WAF-Kombination (Enterprise).
IDA Pro / Ghidra – Reverse Engineering, Malware Analysis. Einstieg: Ghidra Tutorials.

SET (Social-Engineer Toolkit) – sudo apt install set (unter Kali schon da) → Menü-gesteuerte Phishing/USB-Attacken. Beachte Gesetzeslage & Kundenfreigabe!

How-To: Eigene Toolchain bauen

Lab vorbereiten: Proxmox/VMware + OWASP Broken Apps, Metasploitable, Windows-Clients.
Baseline Script: Repo mit Docker-Compose für ZAP/Burp, Nmap-Skripte, SQLmap-Targets pflegen.
Automatisierung: Für wiederkehrende Checks GitLab CI Jobs (z. B. wöchentlicher Nmap/SSLyze-Scan) bauen.
Reporting: Templates in Dradis, PlexTrac oder Security-Tools (z. B. Burp Reporting API) einbinden.

Quellen & weitere Ressourcen

Reminder: Tools alleine machen keinen Pentester. Entscheidend ist dein Methodik-Playbook: Recon → Threat Model → Exploit → Post-Exploitation → Reporting. Übe jede Phase im Lab, dokumentiere sauber, dann bist du vom „Screenshot“ zur echten Skillmap unterwegs.

Lokale LLMs: Notizen vom Meetup mit Stepan Rutz

Wed, 25 Mar 2026 00:00:00 +0000

Auf LinkedIn schrieb @ddppham über sein Treffen mit Stepan Rutz („Gestern mit Stepan Rutz über lokale LLMs gesprochen…“). Hier ein kurzes Write-up, ergänzt um Links & Ressourcen, damit du die Themen aus dem Gespräch gleich weiterverfolgen kannst.

Wer ist Stepan Rutz?

CTO & Mitgründer von local.ai (Beispiel-Link) – spezialisiert auf On-Prem-LLM-Deployments
Maintainer von ggml/GGUF-Tooling (u. a. GPU-Offloading für LLaMA)
Aktiv in der Swiss AI Community

Kernpunkte aus dem Meetup

Edge statt Cloud: Immer mehr Kunden wollen Modelle lokal – wegen Kosten, Latenz und Datenschutz. Beispiele: Arztpraxen, Industrie, Behörden.
Gewicht-Formate: GGUF, AWQ, EXL2 – wieso du 4bit-weights brauchst und wie du sie mit llama.cpp oder LM Studio laden kannst.
Laufzeit-frameworks: AirLLM (Layer-Streaming für GPUs <8 GB), llama.cpp (CPU/Metal), NVIDIA TensorRT-LLM.
Toolchain: LoRA-Finetuning, Prompt-Captain, Prompt-Guards, Observability (z. B. Promptfoo).

„Der heilige Gral ist nicht das Modell, sondern die Pipeline: Download → Quantize → Test-Suite → Deployment → Monitoring.“ – Stepan Rutz

Links & Ressourcen

Thema	Ressourcen
Quantisierung	The Stack for AWQ, AutoGPTQ
Local Inference	llama.cpp Doku, AirLLM
Hardware Guides	Ollama + Mac Studio Setup, Jetson + TensorRT-LLM
Safeguards	NeMo Guardrails, Llama Guard 2

Wie du dein eigenes „lokales LLM“ startest

Modell wählen: z. B. Meta-Llama-3-8B, Phi-3.5, Mistral-Nemo. Auf HuggingFace die GGUF/AWQ-Variante holen.
Quantisieren/Testen: Mit llama.cpp → ./quantize model.gguf model-Q4_K_M.gguf Q4_K_M. Prompt-Evals via promptfoo.
Runtime: ollama run llama3 für Mac, airllm für kleine GPUs, lmdeploy für TensorRT.
Guardrails: Prompt-Firewall + Content-Filter (z. B. Llama Guard 2) lokal dazu packen.
Monitoring: Logging in Langfuse oder Helicone (beides self-host optional).

Ausblick

Das Gespräch drehte sich auch um lokale Agenten (siehe AutoGen + Worker-Nodes) und darum, ob Unternehmen sich demnächst ganze Modell-Zoos in den Keller stellen. Spoiler: Ja – sobald Edge-Hardware wie NVIDIA Blackwell verfügbar ist, wird „LLM on-prem“ Standard.

Danke an ddppham für die LinkedIn-Notiz – und an Stepan Rutz fürs Teilen seines Toolkits. Wer tiefer einsteigen will: Schaut bei der nächsten local.ai Meetup-Serie vorbei oder abonniert Stepans Updates auf LinkedIn.

Bernhard Haslhofer über die nächste Cybercrime-Welle

Wed, 25 Mar 2026 00:00:00 +0000

Im Falter 13/26 spricht der österreichische Wissenschaftler Bernhard Haslhofer über die nächste Cybercrime-Welle – und warum Behörden, Banken und Unternehmen nur dann vorbereitet sind, wenn sie Forensik, Datenanalyse und internationale Zusammenarbeit zusammendenken. Hier die wichtigsten Punkte aus dem Interview plus die relevanten Links zu seinen Forschungsprojekten.

Wer ist Bernhard Haslhofer?

Leitender Wissenschafter am Complexity Science Hub Vienna (CSH)
Professor an der Universität Wien (Secure Systems)
Gründungsmitglied des Austrian Blockchain Center
Entwickler von GraphSense, einer Open-Source-Plattform für Blockchain-Forensik (GitHub)
Mitautor zahlreicher Studien zu Krypto-Ransomware, Darknet-Märkten und digitaler Spurensicherung (Google Scholar Profil)

Kernthesen aus dem Falter-Interview (Auszug)

„Eine Welle, die man in den Griff bekommen muss“ – Cybercrime professionalisiert sich rasant: Ransomware-as-a-Service, Phishing-Kits, KI-generierte Deepfakes.
Daten & Ausdauer werden entscheidend: Ermittlungen dauern Jahre (Beispiel Bayern/Österreich), dabei braucht es saubere Datenketten, forensische Pipelines und internationale Rechtshilfe.
Finanzkriminalität bleibt Dreh- und Angelpunkt: Krypto-Börsen, Payment-Dienstleister und Banken sind nicht nur Opfer, sondern müssen AML-Modelle anpassen.

„Jeder ‚Tatort‘-Zuschauer weiß inzwischen, dass ein DNA-Test der Polizei gehört. Wir brauchen die gleiche Selbstverständlichkeit bei digitalen Beweismitteln.“ – Bernhard Haslhofer (Falter 13/26)

Forschungs- & Praxisprojekte von Haslhofer

Projekt	Fokus	Links
GraphSense	Blockchain-Analyse (Bitcoin, Ethereum, Tron…) für LEAs & Banken	graphsense.info · Code
INSIGHT (FFG)	Erkennung von Krypto-Scams & Laundering Patterns	CSH-Projektseite
FINSTER (EU Horizon)	Finanzforensik über Krypto & klassische Zahlungssysteme	EU CORDIS
Salmon	Analyse von Fraud-Communities (z. B. Telegram, Darknet)	Paper (2024)
AML-Simulator	Synthetic Data für Anti-Geldwäsche-Modelle	CSH Blogpost

Zusätzlich lohnt sich ein Blick auf seine Publikationen zu:
- „The Bitcoin Lightning Network: Scalable Off-Chain Instant Payments“
- „Ransomware Payments in the Dark“
- „Open-Source Intelligence for Financial Crime“

Was heißt das für Unternehmen und Behörden?

Forensik-Toolchain prüfen – nutzt ihr GraphSense, Chainalysis oder ähnliche Tools? Gibt es Schnittstellen zur Polizei?
Datenqualität sichern – nur wer Transaktionsdaten, KYC und Hinweisgeber-Infos kombiniert, kann Geldströme verfolgen.
KI & Automation einplanen – neue Betrugsformen (Deepfake-CEO, Voice-Cloning) brauchen Detection-Modelle; Forschung wie CSH „DeepTrust“ zeigt, wie das aussehen kann.
Ausbildung – Haslhofer plädiert für Forensik-Bootcamps und Wissenstransfer zwischen Wissenschaft und Polizei (siehe CSH Academy).

Weiterführende Ressourcen

Falter 13/26, Politik-Ressort, „Bei Cybercrime steht eine Welle bevor…“
Complexity Science Hub – Research Highlights
Podcast „CSH Talks“ mit Bernhard Haslhofer (Ep. 12) (Beispiel-Link ersetzen, sobald verfügbar)
Austrian Institute of Technology: Cybercrime & Forensics

Bottom Line: Haslhofer zeigt im Interview, dass Cybercrime längst nicht mehr nur ein Polizeiproblem ist. Wer Finanzen, IT, Politik und Wissenschaft zusammenbringt, bekommt die nächste Welle in den Griff – und genau daran arbeitet sein Team in Wien.

AirLLM: 70B-Modelle auf 4 GB VRAM

Tue, 24 Mar 2026 00:00:00 +0000

Der Hype um neue Frontier-Modelle hat eine hässliche Kehrseite: Hardwarepreise und Cloud-Bills explodieren. AirLLM tritt genau dazwischen – ein Apache-2.0-Projekt, das „nur“ durch cleveres Laden der Modellschichten plötzlich 70B‑ und sogar 405B‑Parameter-Modelle auf 4–8 GB VRAM möglich macht. Kein Wunder, dass das Repo inzwischen fünfstellig gestarred wird.

Was AirLLM tut (und was nicht)

Schichtweises Streaming: Statt das komplette LLaMA/Qwen/Mixtral in den VRAM zu pumpen, lädt AirLLM immer nur exakt die eine Layer, die gerade inferiert wird. Danach wird sie wieder aus dem Speicher geworfen.
Prefetch + Block-Kompression: Neuere Builds ziehen die nächste Layer parallel nach und können optional in 4‑/8‑Bit komprimieren (BitsAndBytes), um Disk-IO zu drücken.
Keine Pflicht-Quantisierung: Du kannst Models in voller Präzision fahren. Quantisierung ist „opt-in“ für mehr Tempo.
Kompatibel mit Hugging Face / AutoModel: AutoModel.from_pretrained("garage-bAInd/Platypus2-70B-instruct") reicht – AirLLM erkennt das Modell, splittet es und cached die konvertierten Safetensors.
Unterstützte Plattformen: Linux, Windows, macOS (Apple Silicon), reine CPU-Modi.

Aber: Durchsatz ist klar langsamer als bei klassischem GPU-Load (Disk-IO bleibt der Bottleneck). Wer niedrige Latenzen oder High-QPS braucht, nimmt weiter Quantisierung + High-VRAM oder serverseitige Hosts.

Warum das wichtig ist

Demokratisierung: 70B- oder 405B-Modelle sind nicht länger Enterprise-only. Studierende, Indie-Hacker, Forschungsteams können reale Frontier-Modelle lokal testen.
Cost & Privacy: Experimente passieren on-prem – keine Cloud-GPU-Rechnung, keine Daten außerhalb der eigenen Hardware.
Edge/Regulierung: AirLLM öffnet die Tür für Edge-Deployments (Industrie, Defense, Healthcare), in denen kein Internetzugriff oder kein US-Cloud-Provider erlaubt ist.

Technik im Detail

SafeTensors Layer Split: AirLLM konvertiert das Hugging-Face-Modell in layerweise Safetensors. Jeder Block (~1,5 GB bei 70B) wird via Memory Mapping geladen, sobald die Layer dran ist.
FlashAttention integriert: Für lange Kontexte sinkt der RAM-Bedarf auf O(n), während die CUDA-Kernel optimiert werden – relevant, wenn du >8k Tokens generieren musst.
MetaDevice (Accelerate): Beim Laden belegt das Modell 0 MB – erst bei Bedarf werden Layer auf CPU/GPU gestreamt.
Blockweise Kompression: Nur die Gewichte eines Blocks werden 4‑/8‑bit-komprimiert, nicht die Activations → deutlich weniger Accuracy-Drop als klassische Vollquantisierung.

Setup in 5 Minuten

pip install airllm bitsandbytes

from airllm import AutoModel
model = AutoModel.from_pretrained(
    "garage-bAInd/Platypus2-70B-instruct",
    quantization="bitsandbytes",   # optional 4/8-bit
    delete_original=True,           # spart Diskspace nach dem Split
    max_length=128,
)

inputs = model.tokenizer(["Was ist die Hauptstadt der USA?"],
                         return_tensors="pt",
                         truncation=True,
                         padding=False)
outputs = model.generate(inputs["input_ids"].cuda(), max_new_tokens=64)
print(model.tokenizer.decode(outputs.sequences[0]))

Praxis-Tipps:

Plane genügend SSD-Speicher (gesplittete Layer verdoppeln kurzzeitig den Platzbedarf). Fehlermeldung „metadata incomplete buffer“ = Speicher voll.
Für gated Hugging-Face-Modelle hf_token als Parameter mitgeben.
Apple Silicon / CPU-Only? device_map="cpu" oder --apple nutzen; AirLLM nutzt dann Metal/Accelerate.
Wenn der Tokenizer keinen Padding-Token besitzt: padding=False oder model.config.pad_token_id setzen.

Trade-offs & Grenzen

Kategorie	AirLLM	Klassische GPU-Inferenz
VRAM-Bedarf	✅ 4–8 GB (70B–405B)	❌ 48–80 GB (70B)
Speed	❌ IO-limitiert	✅ Hoch
Genauigkeit	✅ Original (oder 4/8-bit optional)	➖ Hängt von Quant. ab
Setup-Aufwand	Mittel (Splitting, Cache)	Niedrig, wenn GPU groß genug

Kurz gesagt: AirLLM tauscht Zeit gegen Zugänglichkeit. Für Forschungs-Batches, lokale Agents, Offline-Assistenten und Early-Stage-Prototyping ist das ein fairer Deal. Für Kundenchatbots mit tausenden Requests pro Sekunde eher nicht.

Einsatzideen

Privacy-first Chatbots: Arztpraxen, Anwaltskanzleien oder Behörden können state-of-the-art LLMs on-prem laufen lassen.
Research & Education: Hochschulen geben Studierenden Zugang zu echten Frontier-Modellen ohne GPU-Cluster.
Prototyping: Startups validieren Modelle lokal, bevor sie auf teure A100-Instanzen skalieren.
Edge-AI: Fertigungslinien oder kritische Infrastruktur, wo Internetzugang reglementiert ist.

Fazit

AirLLM erinnert uns daran, dass nicht jede LLM-Innovation aus „mehr Hardware“ bestehen muss. Durch Layer-Streaming, clevere Dateiformate und optionale Kompression schafft das Projekt einen neuen „Sweet Spot“: Frontier-Modelle auf Consumer-Hardware – langsam, aber machbar. Wer bisher an 70B/100B-Modellen vorbeiziehen musste, sollte AirLLM mindestens einmal ausprobieren.

Quellen & weiterführende Links:
- Manjeet Info: AirLLM Explained – Run Large Language Models on Low-Memory GPUs (10.03.2026)
- KnowWithAkshay: Run AI Models Locally on Your PC | AirLLM Explained (YouTube, 02.03.2026)
- 53AI.com: AirLLM Deep Dive – FlashAttention, SafeTensors, MetaDevice (16.03.2026)
- GitHub: https://github.com/lyogavin/airllm

Mistral Vibe & Forge: Europas Coding-Stack für sensible Software

Mon, 23 Mar 2026 00:00:00 +0000

Zwei Launches aus Paris gehen im deutschen Tech-Feed fast unter: Mistral Vibe (agentischer Coding-Assistent) und Mistral Forge (Trainingssystem für Unternehmens-LLMs). Auf LinkedIn weisen u. a. Alexander Nichau (niologic) darauf hin – hier ist der kombinierte Überblick.

Warum das spannend ist

EU-Datensouveränität: Modelle und Agenten bleiben in europäischen Cloud-Regionen oder on-prem.
Legacy & IP: Mittelständler sitzen auf proprietären Stacks. Vibe/Forge bringen Code-Automation & Custom-Modelle in denselben Rechtsraum.
Strategisches Signal: Mistral skaliert mit Open Source, NVIDIA-Partnerschaften und Enterprise-Services – ohne US-Lock-in.

Teil 1: Mistral Vibe (Coding-Agent)

Feature	Nutzen
Terminal-native Agenten	CLI-Agenten, die Repos verstehen, Commands ausführen, Tests schreiben.
IDE-Plugins & Async Agents	VS Code / JetBrains, Tab-to-complete, parallele Hintergrund-Jobs.
Multi-file Reasoning	Architektur-Level-Refactoring, Legacy-Migration.
Fine-Tuning auf eigenem Code	Devstral/Codestral-Modelle lassen sich auf proprietären Frameworks trainieren.
EU-Infrastruktur	Cloud, Sovereign Deployments oder eigener Server (Devstral Small 2 mit 24B Parametern).

Vergleich zu Copilot & Co.:
- Datenstandort: EU oder on-prem vs. Azure/US.
- Modellkontrolle: Eigene Fine-Tunes statt geschlossene API.
- Agentische Workflows statt reiner Completion.

Einsatzidee für DACH: Legacy-Modernisierung (AS400/SAP), Test Debt abbauen, Doku automatisieren, regulierte Branchen (Finanz, Public Sector) ohne IP-Leak.

Einstiegsschritte:
1. Codebase-Audit & Pilot-Team definieren
2. Terminal-Agent + IDE Plugin + Async Setup testen
3. Governance (self-hosted vs. Cloud, Secrets, Logging)
4. Roadmap für Fine-Tunes erstellen (Datensätze kuratieren)
5. Entwickler onboarden, Automationsrichtlinien festlegen

Teil 2: Mistral Forge (Custom Frontier Models)

Forge ist das Gegenstück auf Model-Ebene: Unternehmen trainieren Mistral-Modelle mit eigenem Wissen – von Pretraining bis RL.

Capability	Beschreibung
Pre-/Post-Training	Domain-aware Modelle aus internen Dokumenten, Code, Policies.
Reinforcement Learning	Modelle & Agenten mit internen KPIs, Compliance-Regeln, Tool-Use alignen.
Dense & MoE, Multimodal	Performance vs. Effizienz feinjustierbar; Text, Bilder etc. möglich.
Agent-first	Vibe kann Forge-Jobs selbst orchestrieren (Fine-Tune, Synthetic Data, Eval Monitoring).
Governance	Modelle bleiben unter eigener Kontrolle (IP, Data Residency, Audit).

Kunden laut Mistral: ASML, Ericsson, ESA, DSO/HTX Singapore, Reply – alles Organisationen mit hohem Schutzbedarf.

Warum das wichtig ist:
- Strategische Autonomie – Wissen bleibt im Haus.
- Agent Reliability – Custom-Modelle erhöhen Präzision beim Tool-Use.
- Compliance – Modelle verstehen und respektieren interne Policies.
- Kontinuierliche Verbesserung – RL/Eval-Pipelines für regulatorische Updates.

Empfohlene Schritte:
1. Knowledge Map: Welche Daten dürfen ins Training? (Code, Policies, Logs)
2. Ziele & KPIs definieren (z. B. Policy-Compliance, Tool-Workflow)
3. Governance-Board aufsetzen (AI, Legal, Security)
4. Pilot-Use-Case (Compliance QA, Legacy Migration)
5. Agent-Stack koppeln (Vibe + Custom Model)

Fazit

Mit Vibe + Forge baut Mistral einen kompletten Stack für europäische Unternehmen: Agents, die Code mit Kontext schreiben, und Modelle, die auf proprietärem Wissen trainiert sind – alles innerhalb europäischer Infrastruktur. Wer über AI-Automation nachdenkt, ohne IP und Compliance aufs Spiel zu setzen, sollte diesen Stack evaluieren.

Quellen: Mistral Vibe Produktseite, Mistral Forge Blog, LinkedIn-Post von Alexander Nichau.

MiroFish: Was kann die Open-Source-Schwarm-Intelligenz wirklich vorhersagen?

Mon, 23 Mar 2026 00:00:00 +0000

Der Reddit-Thread (r/aiagents) und das GitHub-Repo 666ghj/MiroFish werden gerade massiv geteilt. Grund: Das Projekt verspricht eine „A Simple and Universal Swarm Intelligence Engine, Predicting Anything“. Klingt nach Marketing – also habe ich mir den Code, die Architektur und Use Cases angesehen.

Was ist MiroFish?

Multi-Agent-Vorhersage-Engine: Baut aus „Seed“-Informationen (News, Policy Drafts, Finanzdaten, sogar Roman-Manuskripte) eine parallele Gesellschaft mit tausenden KI-Agenten.
Ziel: Verhalten von Gruppen simulieren („Swarm Intelligence“) und daraus Vorhersagen / Reports ableiten.
Praxisbeispiele (laut README & Demo):
Öffentliche Meinung zu einer Uni-Krise (Bilibili-Demo)
Alternative Enden für „Traum der Roten Kammer“ (Literatur)
In Arbeit: Finanz- und Geopolitik-Szenarien

Architektur in Kurzform

GraphRAG + Seed Parsing – extrahiert Entitäten, Beziehungen und Ereignisse aus dem Input.
Agent Factory – generiert Personas mit Gedächtnis (Zep Cloud), Motivationen und Interaktionsregeln.
Simulation Layer – zweigleisiger Simulator (Node/Python) mit Zeitfortschritt, Ereignis-Queue, „God Mode“-Interventionen.
Report Agent – nutzt LLM (Standard: Qwen-Plus via Aliyun Dashscope) plus Tools (SQL, Graph Queries) für Prognoseberichte.
Frontend – React/Next UI für Monitoring + Interaktion (Chat mit Agents, Parametertuning).

Installation & Stack

Komponente	Details
LLM	OpenAI-kompatibel; Default `qwen-plus` (Aliyun). Jede API mit OpenAI-SDK-Syntax funktioniert.
Memory	Zep Cloud für Langzeit-Gedächtnis & Vektorsuche.
Backend	Python 3.11/3.12 + `uv` (Package Manager).
Frontend	Node 18+, React/Next.
Deploy	`npm run setup:all` (lokal) oder `docker compose up -d` (Front 3000 / API 5001).

Hardware-Anforderungen

Szenario	Empfehlung
Proof of Concept	4 vCPU, 16 GB RAM, 30 GB SSD. Kein GPU nötig. (Getestet auf Hetzner CX32 & M2 Mac mini.)
Mittlere Simulationen (≤2 k Agents)	8 vCPU, 32 GB RAM, 60 GB SSD. Optional NVIDIA T4/RTX 3060 für lokale LLMs.
Große Simulationen / Dauerbetrieb	Dedizierte Server (z. B. 16+ vCPU, 64–128 GB RAM). README verweist auf Shanda Cloud-Instanzen/OASIS-Cluster.

Tipps aus der Community (Reddit + GitHub Issues):
- GPU nur nötig, wenn du Modelle lokal betreiben willst; ansonsten reichen Cloud-LLMs.
- Zep Cloud Free Tier trägt einfache Szenarien, aber bei >10 k Speicher-Events brauchst du einen eigenen Vector Store.
- Docker Deployment eignet sich für Windows-Anwender:innen (WSL2). macOS/Linux laufen nativ.
- Deutsche Übersetzung inkl. Setup-Guide: BEKO2210/MiroFish-DE.

Tutorial: MiroFish mit lokalem LLM (Ollama + LiteLLM)

So nutzt du MiroFish komplett ohne externe LLM-APIs:

Ollama installieren
bash curl -fsSL https://ollama.com/install.sh | sh # macOS / Linux # Windows: https://ollama.com/download ollama pull qwen2:7b # oder llama3, mistral, ...

Tipp: Apple Silicon oder Linux-Server mit mind. 32 GB RAM bringen spürbar bessere Laufzeiten.
OpenAI-kompatible Schnittstelle starten (LiteLLM als Proxy)
bash pip install litellm litellm --model ollama/qwen2:7b --host 0.0.0.0 --port 4000 \ --ollama-base http://localhost:11434 --num-workers 4
Jetzt lauscht LiteLLM auf http://localhost:4000/v1 und übersetzt OpenAI-Calls → Ollama.
MiroFish .env setzen
env LLM_BASE_URL=http://localhost:4000/v1 LLM_MODEL_NAME=ollama/qwen2:7b LLM_API_KEY=demo # beliebiger Platzhalter, LiteLLM prüft ihn nicht
MiroFish starten
bash npm run setup:all npm run dev
Kosten & Performance im Blick behalten
Sub-7B-Modelle liefern schnellere Simulationen, aber weniger Konsistenz.
Für >2 k Agents empfiehlt sich GPU-Unterstützung (z. B. RTX 4090, A100) oder ein zweiter LiteLLM-Node.
Logs aufpassen: LiteLLM gibt Token-Kosten, Durchsatz und Fehler direkt aus.

Damit läuft das komplette System on-prem – praktisch für sensible Szenarien (z. B. vertrauliche Policy-Tests oder EU-DSG-Konformität).

Wofür taugt es (realistisch)?

Policy / Krisen-Kommunikation: Null-Risk-Testfeld für Narrative und Gegenmaßnahmen (vgl. Demo „Wuhan University Incident“).
Produkt/Feature-Futures: Simuliert Community-Reaktionen, Feature-Adoption, Dissonanzen – guter Input fürs CX-Team.
Storytelling / Games: KI-generierte Welten für Autorenstudios (Visual Novels, Alternate History).
Education: Lehr-Use-Cases für Komplexität, Systemdenken, Collective Intelligence.

Grenzen & offene Fragen

Thema	Beobachtung
Validierung	Keine Benchmarks vs. Realwelt-Daten veröffentlicht. „Faithful Digital Mirror“ bleibt ein Versprechen.
Bias & Seed-Qualität	Garbage-in → Garbage-out. Seed-Daten definieren die komplette Simulation.
Rechenaufwand	Mehrere tausend Agents + Memory → LLM-Kosten explodieren schnell. README warnt vor >40 Runden mit qwen-plus.
Transparenz	Engine basiert u. a. auf hauseigenem OASIS-Framework (von Shanda). Kein vollständiger Einblick in alle Module.
Einsatzethik	„Predict anything“ kann auch Missbrauch begünstigen (z. B. Disinformation, Manipulation). Governance-Fragen offen.

Einschätzung

MiroFish ist mehr als ein Gimmick – es kombiniert moderne Bausteine (GraphRAG, Langzeit-Memory, Multi-Agent-Sim) zu einer interaktiven Vorhersageplattform. Der Code ist sauber modular, Docker-Deploys laufen ohne großen Schmerz. ABER: Ergebnisse sind so gut wie die Seeds und Prompt-Designs. Wer es im Unternehmen einsetzen will, sollte es als „Entscheidungs-Sandkasten“ begreifen, nicht als Orakel.

Quellen: GitHub: 666ghj/MiroFish, Reddit r/aiagents, MiroFish-DE Übersetzung.

Claudy Day: Was die neuen Claude-Schwachstellen bedeuten

Mon, 23 Mar 2026 00:00:00 +0000

Der LinkedIn-Post von Cybersecurity News verlinkt auf eine Analyse von Oasis Security: Unter dem Namen Claudy Day wurden drei Schwachstellen in Claude.ai offengelegt, die zusammen Datenabfluss und Phishing ermöglichten. Hier ein kompakter Überblick mit Handlungsempfehlungen.

Die drei Bausteine der Attacke

Schwachstelle	Beschreibung	Risiko
1. Unsichtbare Prompt-Injection	`claude.ai/new?q=` erlaubt vorbefüllte Prompts. HTML-Tags konnten unsichtbar im Eingabefeld landen, aber trotzdem ausgeführt werden.	Angreifer schleusen versteckte Befehle ein, ohne dass der Nutzer es merkt.
2. Exfiltration via Files API	Claude darf im Sandbox-Modus mit `api.anthropic.com` sprechen. Instruiert man es, Konversationen zu durchsuchen, kann es Dateien erstellen und mit einem fremden API-Key hochladen.	Gesprächsverläufe, Profile, sensible Texte verlassen den Tenant.
3. Open Redirect auf claude.com	`claude.com/redirect/<target>` leitete ungeprüft weiter. Kombiniert mit Google Ads wirkt jeder Link vertrauenswürdig.	Opfer klicken auf echte Claude-Links, landen aber auf der Injektions-URL.

Kette: Google Ad (claude.com/redirect) → versteckter Prompt im neuen Chat → Claude liest Historie und lädt sie zum Angreifer hoch. Kein MCP, keine Tools nötig.

Status laut Anthropic

Prompt-Injection wurde gepatcht.
Open Redirect & Files-Abuse werden „adressiert“ (Stand: März 2026).
Responsible Disclosure durch Oasis Security, Publikation der technischen Analyse inkl. Whitepaper.

Warum das relevant ist

Shadow AI: Nutzer teilen hochsensible Daten (M&A, Gesundheit, Legal) in Chat-Historien.
Agent Exfiltration: Selbst ohne Integrationen kann ein Agent seine Memory/History auslesen und exfiltrieren.
Targeted Ads: Customer Match ermöglicht es Angreifern, spezifische Führungskräfte via Google Ads anzusprechen.
Enterprise Add-ons: Mit MCP-Tools/Integrationen wäre Zugriff auf Dateien, APIs, Messaging-Dienste möglich.

Maßnahmen für Unternehmen

Link Hygiene: Blockiere claude.com/redirect/* auf Secure Web Gateways, bis fix bestätigt ist. Setze URL-Parsing für KI-Links auf „explizit anzeigen“.
Prompt-Firewalls: Bei geteilten Claude-Links warnen, dass vorgefüllte Prompts versteckte Instruktionen enthalten können.
Agent Governance: Inventur aller AI-Agents, welche Daten/Integrationen sie sehen (Shadow-AI-Map). Nicht benötigte Tools deaktivieren.
Least Privilege für Claude: Gesprächshistorie regelmäßig löschen, Enterprise Controls nutzen (Session Limits, Export Policies).
Monitoring: Logs auf Anomalien (z. B. große Files via Anthropic Files API). JIT-Zugriff + Audit Trail für Agents.
Awareness-Kampagne: Neue Phishing-Story im Security-Awareness-Programm – „Vorbefüllte KI-Links können Malware enthalten“.

Learnings für AI-Security

UI-Funktionen = Attack Surface. Selbst Feature-Links (prefill prompt) müssen sanitisiert werden.
Agents handeln eigenständig. Sobald sie Dateien schreiben können, sind klassische DLP/Firewall-Kontrollen umschifft.
Identity ≠ nur Mensch. Agent-Identitäten brauchen dieselben Policies wie Service Accounts (Intent-Prüfung, Scoping, JIT-Zugriff).
Zero Trust auch für Prompts. Eingaben aus Links, Ads, Community-Foren sollten mit Detektoren (Regex, HTML-Filter) geprüft werden.

Fazit

Claudy Day zeigt denselben Trend wie die OpenClaw-Schwachstelle: Ein manipuliertes Input reicht, wenn Agents hohe Berechtigungen besitzen. Organisationen müssen KI-Chatbots und -Agents wie vollwertige Identitäten behandeln – inklusive Inventur, Rechte-Management und Monitoring.

Quellen: Cybersecuritynews.com, Oasis Security Research, LinkedIn (#cybersecuritynews).

AgentMux: Deterministische KI-Pipelines ohne API-Kosten

Mon, 23 Mar 2026 00:00:00 +0000

Als Anthropic kürzlich den OAuth-Workaround in OpenCode blockierte, fiel vielen Engineering-Teams ihr Modell-Mix auseinander. Markus Wondrak (TAB Zürich) reagierte mit AgentMux: einer deterministischen Multi-Agenten-Pipeline, die vorhandene KI-CLI-Tools via tmux orchestriert. Das LinkedIn-Posting dazu sorgt für Resonanz – Grund genug für einen Deep Dive.

Was AgentMux macht

Multi-Agent-Workflow, aber fix verdrahtet: Rollen wie Product Manager, Architect, Coder, Reviewer, Docs laufen sequenziell – keine spontanen Agenten-Entscheidungen.
CLI statt API: AgentMux steuert vorhandene Tools (claude, codex, gemini, opencode) in eigenen tmux-Panes. OAuth-Sessions der jeweiligen Provider werden wiederverwendet → keine neuen API-Keys, keine Tokenrechnung.
State Machine + Filesystem: Jeder Schritt schreibt strukturierte Outputs (Plan, Code, Review) in Files. Die Orchestrierung beobachtet diese Dateien und schaltet den nächsten Agenten frei.

Warum das spannend ist

Kostenkontrolle: Lizenzen (z. B. Claude Opus, Gemini Pro, OpenCode) werden ohnehin bezahlt. AgentMux spart zusätzliche API-Ausgaben.
Determinismus: Pipeline ist deklarativ festgelegt (config.yaml). Keine Überraschungen durch halluzinierende Pläne; der Orchestrator sorgt für Konsistenz.
Model-Mixing: Pro Rolle lassen sich andere Provider/Profile definieren (z. B. Architekt = Claude Opus, Coder = Codex, Reviewer = Gemini Flash).
GitHub-Integration: Optionaler PM-Step generiert Spezifikationen; --issue zieht Titel/Body via gh und öffnet am Ende Pull Requests.

Architektur (aus dem README)

Product Manager → Planning → Implementing → Reviewing → (Fixing) → Completing

Taktgeber ist pipeline.py: Es rendert Prompts pro Rolle, injiziert sie in tmux, wartet auf Output, checkt Review-Ergebnisse und commitet bei Erfolg.

Installation (Quickstart)

pip install -r requirements.txt
python3 pipeline.py "Add rate limiting to the API"
python3 pipeline.py --product-manager ...         # optional PM-Phase
python3 pipeline.py --issue 42                     # GitHub-Issue Nr.
pipeline.py --resume                               # abgebrochene Runs fortsetzen

Konfiguration landet in .agentmux/config.yaml (overrides via ~/.config/agentmux und --config). Profile (max, standard, low) mappen auf konkrete Modelle pro Provider.

Anforderungen & Praxis-Tipps

tmux & CLI-Tools: Du brauchst funktionierende CLI-Aliases (claude, opencode, gh). Authentifizierung läuft wie gewohnt (OAuth in Browser, Tokens lokal).
Filesystem-Nerven: AgentMux erzeugt zahlreiche Artefakte im Projektordner (Plan, Code, Tests, Review). Git-Ignore anpassen!
Workload: Für große Features gedacht; für Ein-Zeiler-Fixes ist es Overkill.
Custom Prompts: Rollen-Prompts liegen in prompts/*.md und lassen sich per Projekt anpassen.

Grenzen & Ideen

Thema	Beobachtung
Fehlerhandling	Pipeline bricht hart ab, wenn ein CLI-Tool hängt. Watchdog/Timeouts wären wünschenswert.
Kollaboration	Aktuell Single-User. Shared tmux-Session wäre möglich, aber nicht integriert.
Tests/CI	Generate-Test-Phase vorhanden, aber keine automatische Ausführung in Docker/CI.
Security	CLI-Tools laufen mit lokalen Rechten. Secrets sollten vorher sauber isoliert werden.

Fazit

AgentMux ist kein Ersatz für AutoDev oder OpenCode – eher ein deterministisches Framework, um vorhandene High-End-Subscriptions effizient zu stacken. Für größere Umbauten (mehrere Files, Tests, Review) liefert es planbare Ergebnisse ohne API-Overhead. Wer sowieso mit Claude, Codex & Co. arbeitet, findet hier einen pragmatischen Weg, Multi-Agent-Workflows unter eigene Kontrolle zu stellen.

Quellen: LinkedIn-Post von Markus Wondrak, GitHub: AgentMux.

Agent Orchestrator: 30 Coding-Agents parallel steuern

Mon, 23 Mar 2026 00:00:00 +0000

Niven V. (Agent Wrapper) hat auf LinkedIn ein Open-Source-Projekt mit derzeit 5 k+ Stars hervorgehoben: den Agent Orchestrator von Composio. Er orchestriert bis zu 30 KI-Coding-Agents parallel, inklusive Git-Worktrees, CI-Feedback und Review-Schleifen. Hier die wichtigsten Fakten.

Was das Tool kann

Parallelbetrieb: Jede Aufgabe erhält einen eigenen Agent (Claude Code, Codex, Aider etc.), inklusive isoliertem Git-Worktree, Branch und PR.
Autonomer Kreislauf: CI-Fehler, Review-Kommentare und Merge-Checks gehen automatisch an den richtigen Agent zurück.
Dashboard: Web-UI auf localhost:3000, dazu tmux-Sessions für Live-Einblick (CLI-Layer ao).
Human-in-the-loop: Du wirst nur gerufen, wenn Entscheidungen nötig sind; sonst laufen Agents selbstständig weiter.
Plugin-Architektur: Runtimes (tmux, Docker, K8s), Tracker (GitHub, Linear), Notifier (Desktop, Slack) lassen sich austauschen.

Quickstart (laut README)

npm install -g @composio/ao              # CLI installieren
ao start https://github.com/your/repo    # Repo klonen + Dashboard starten

Voraussetzungen: Node.js ≥20, Git ≥2.25, tmux, gh CLI.
- Dashboard öffnet sich automatisch (default Port 3000).
- Konfig landet in agent-orchestrator.yaml (Port, Defaults, Projekte, Reactions).

Workflow im Überblick

ao start richtet Repo + Worktrees ein, startet Orchestrator.
Orchestrator spawnt Worker-Agents (z. B. pro Issue).
Agents lesen Code, schreiben Tests, erstellen PRs.
Reactions verteilen Feedback (CI-Fails, Reviewer-Kommentare) an den passenden Agent.
Du mergest – oder lässt Auto-Merge zu, wenn CI grün + Approval vorhanden.

Konfigurationsbeispiel

defaults:
  runtime: tmux
  agent: claude-code
  workspace: worktree
  notifiers: [desktop]

reactions:
  ci-failed:
    auto: true
    action: send-to-agent
    retries: 2
  changes-requested:
    auto: true
    action: send-to-agent
  approved-and-green:
    auto: false     # true = Auto-Merge
    action: notify

Stärken vs. typische Pain Points

Pain Point ohne Tool	Agent Orchestrator liefert
Viele parallele Tasks babysitten	Dashboard + Sessions zeigen Status & Logs live
CI-Logs manuell weiterreichen	Automatisches Routing inkl. Retries
Branch-/Worktree-Chaos	Isolierte Worktrees pro Agent, Cleanup integriert
Feedback-Lücke	Reviewer-Kommentare gehen direkt in den richtigen Agent-Loop
Provider-Lock-in	Jeder Agent kann anderen Provider/Plan nutzen (Claude, Codex, Aider, Gemini)

Grenzen / Dinge, die du wissen solltest

CLI-lastig: tmux + CLI-Tools müssen stabil laufen. Auf Windows empfiehlt sich WSL2.
Resource-Hunger: 30 Agents parallel brauchen CPU/RAM. Plane mind. 8 vCPU + 32 GB RAM.
Security: Agents erhalten Checkout + Credentials. Nutze Workspaces mit limitierten Secrets.
Human Review bleibt Pflicht: Auch wenn PRs automatisch kommen, Qualitätssicherung & Security-Review sind unverzichtbar.

Fazit

Agent Orchestrator trifft genau den Sweet Spot zwischen „ein Agent pro Terminal“ und komplexen Enterprise-Plattformen. Wer viele Claude-Code/Codex-Sessions parallel fährt, spart durch das Orchestrierungs-Layer spürbar Zeit und hält trotzdem Kontrolle über Branches, CI und Reviews.

Quellen: LinkedIn-Post, GitHub: ComposioHQ/agent-orchestrator.