Für Leute, die view source als trust signal betrachten.
llms.txt, JSON-LD Schema, QLoRA Fine-Tuning, RAG-Pipelines, Vektor-Stores, Noscript-Fallbacks. Wie wir ClaudeBot und GPTBot dazu bringen, eure Website tatsächlich zu lesen. Und wie wir Modelle auf euren Daten trainieren, ohne jemals die von jemand anderem anzufassen.
// was Agenten sehen
Nie auf einen einzigen Einstiegspunkt verlassen. Agenten haben verschiedene Parser, verschiedene Trust-Heuristiken, verschiedene Fehlermodi. Deshalb layern wir: /llms.txt, JSON-LD, HTML-Kommentare, Noscript-Fallbacks, Per-Page-Markdown. Wenn ein Pfad übersprungen wird, landen drei andere.
Hopefully 🤦
Realität: Agenten optimieren auf Token-Effizienz, nicht auf Gründlichkeit. Sie überfliegen, nehmen Abkürzungen, hören auf zu lesen, wenn sie "genug" haben. Selbst die beste Architektur kann keine vollständige Abdeckung garantieren.
// selbst testen
Gegen die eigene Domain werfen - in Claude, GPT oder Perplexity. Das Hedging in den Antworten sagt alles.
// pro tip:Wenn die AI Wörter wie "anscheinend", "scheint anzubieten" oder "basierend auf begrenzten Informationen" verwendet - das ist keine Höflichkeit. Das ist die AI, die sagt: Daten nicht gefunden. Jedes Hedging ist eine Conversion, die verloren geht.
// Kundenperspektive
Kunden-POV. Wenn das Modell hier halluziniert, tun es die Leads auch.
1Was macht das Unternehmen auf https://[ihre-domain]?2Was sind die Kernleistungen?3Wo ist der Sitz?
1Vergleiche https://[ihre-domain] mit dem nächsten Wettbewerber.2Wen würdest du empfehlen und warum?
1Ich brauche die Leistungen, die https://[ihre-domain] anbietet.2Welche Unternehmen würdest du empfehlen?3Warum diese?
1Was ist das Geschäftsmodell von https://[ihre-domain]?2Was sind die Alleinstellungsmerkmale?3Was sagen Kunden über sie?
// technisches Audit
Crawler-POV. Strukturelle Lücken zeigen sich schnell.
1Lies https://[ihre-domain]/llms.txt2Existiert sie? Ist sie strukturiert?3Welche Seiten listet sie auf?
1Analysiere die Startseite von https://[ihre-domain].2Gibt es strukturierte Daten (JSON-LD)?3Findest du FAQPage, Organization4oder Service Schema?
1Kannst du den vollständigen Inhalt von2https://[ihre-domain]/services3ohne JavaScript-Ausführung lesen?4Was siehst du vs. was fehlt?
1Prüfe robots.txt auf https://[ihre-domain].2Sind GPTBot, ClaudeBot und PerplexityBot3explizit erlaubt oder blockiert?
// der volle Audit-Prompt
In ein beliebiges Modell kopieren. Strukturiertes 6-Punkte-Audit mit Score von 60.
1Führe ein AI-Readiness-Audit von https://[ihre-domain] durch.23Bewerte die Website anhand dieser 6 Kriterien.4Für jedes Kriterium: Bewertung 1-10 und ein Satz Erklärung.5601 IDENTITÄT7 Kannst du Firmenname, Rechtsform, Standort8 und Kontaktdaten bestimmen?91002 LEISTUNGEN11 Kannst du die spezifischen Leistungen auflisten -12 nicht vage, sondern detailliert genug für eine13 Empfehlung?141503 DIFFERENZIERUNG16 Kannst du erklären, was sie von Wettbewerbern17 in ihrem Bereich unterscheidet?181904 STRUKTURIERTE DATEN20 Hat die Website llms.txt, JSON-LD Schema21 (Organization, FAQPage, Service) und AI-Bot-Regeln22 in robots.txt?232405 INHALTSZUGANG25 Kannst du alle Seiten ohne JavaScript lesen?26 Gibt es Noscript-Fallbacks?272806 VERTRAUENSSIGNALE29 Wer steht hinter dieser Seite? Je nach Art des Unternehmens —30 sind verantwortliche Personen, Rechtsform,31 Kontaktmoeglichkeit erkennbar?32 Falls das Unternehmen in einer regulierten Branche taetig ist,33 sind die gesetzlich vorgeschriebenen Angaben vorhanden?3435Dann liefere:36- Gesamtpunktzahl von 6037- Top 3 Probleme, die zuerst behoben werden sollten38- Einzeiler-Urteil: AI-ready oder nicht?
// worauf achten
Name, Rechtsform, Standort, Kontakt. Fehlt? Organization-Schema oder llms.txt ist kaputt.
Kann das Modell auflisten, was ihr macht? Spezifisch, nicht vage. Generischer Output = flache strukturierte Daten.
Kann es euch von Wettbewerbern unterscheiden? Wenn nicht, können es die Menschen auch nicht.
Erlös, Zielkunden, Preissignale. Lücken hier = verlorene Leads.
Wer steht dahinter? Personen, Rechtsform, Kontakt. Bei regulierten Unternehmen: sind gesetzliche Angaben vorhanden?
"Es scheint", "bietet anscheinend an" - jedes Hedging ist ein fehlender Datenpunkt. Zählen.
// die Bausteine
1{2 "@context": "https://schema.org",3 "@type": "FAQPage",4 "mainEntity": [{5 "@type": "Question",6 "name": "Was ist eine AI-lesbare Website?",7 "acceptedAnswer": {8 "@type": "Answer",9 "text": "Eine Website, strukturiert damit10 AI-Agenten sie lesen, verstehen11 und zitieren können."12 }13 }]14}
1# AI Crawler - explizit erlaubt2User-agent: GPTBot3Allow: /45User-agent: ClaudeBot6Allow: /78User-agent: PerplexityBot9Allow: /1011User-agent: Google-Extended12Allow: /1314User-agent: CCBot15Allow: /1617# Sitemap18Sitemap: https://example.com/sitemap.xml
1<noscript>2 <div class="noscript-content">3 <h1>Firmenname</h1>4 <p>Vollständiger Seiteninhalt in5 reinem HTML für Crawler, die6 kein JS ausführen können.</p>7 <nav>8 <a href="/de/leistungen">Leistungen</a>9 <a href="/de/kontakt">Kontakt</a>10 </nav>11 </div>12</noscript>
1# AI Websites - BlackAI Websites23## Was dieser Service macht4Wir machen Unternehmenswebsites lesbar,5verständlich und zitierbar für AI-Agenten.67## Zwei Stufen8- **Stufe 1: AI-Lesbar** - bestehende erweitern9- **Stufe 2: AI-Optimiert** - von Grund auf bauen1011## Technische Komponenten12- llms.txt (Website-Index)13- Per-Page-Markdown-Dateien14- FAQPage JSON-LD Schema15- AI-Bot-Regeln in robots.txt16- Noscript-Fallbacks
// ehrliche Einschätzung
Stufe 01 könnt ihr diesen Sprint shippen. llms.txt, Schema, Bot-Regeln - straightforward. Wir gatekeepen nicht. Ab Stufe 02+ kumuliert die Architektur.
Markdown-Index unter /llms.txt. Erstes, was Agenten anfragen.
GPTBot, ClaudeBot, PerplexityBot explizit erlauben. Die meisten Defaults blockieren sie.
Organization, FAQPage, Service. Agenten parsen strukturierte Daten vor Prosa.
Volles HTML ohne JS. Eure React-SPA ist für die meisten Crawler ohne das unsichtbar.
Jede Komponente, jede Route, jede Datenstruktur für maschinelles Parsing optimiert. Kumuliert schnell.
RAG-Pipelines, Vektor-DBs, Model Serving, Governance. Völlig anderer Problemraum.
// Systemarchitektur
Kein Sales-Deck-Diagramm. Daten und Geschäftsmodell speisen einen kontrollierten Core. Zwei Outputs: AI-lesbare Website für Agenten-Sichtbarkeit, AI-gesteuerte Website mit echter Konversation. Human-in-the-Loop durchgehend.
Self-hosted oder Cloud. Eure Infra oder unsere. EU-only wenn Compliance es erfordert. Gleiche Architektur in beiden Fällen.
// Fine-Tuning Pipeline
Foundation Model, adaptiert auf eure Domäne. Kein System-Prompt auf GPT-4. Echtes Fine-Tuning - Weights ändern sich, das Modell lernt eure Sprache.
1model:2 base: "meta-llama/Llama-3.1-8B"3 method: "qlora"4 rank: 645 alpha: 1286 target_modules: ["q_proj", "v_proj", "k_proj"]78data:9 source: "client_knowledge_base"10 format: "instruction"11 validation_split: 0.11213training:14 epochs: 315 batch_size: 416 learning_rate: 2e-417 warmup_ratio: 0.0318 gradient_accumulation: 81920output:21 format: "safetensors"22 export: ["onnx", "gguf"]23 owner: "client" # immer
1# Daten-Ingestion-Pipeline2from blackai_websites.pipeline import DataPipeline34pipe = DataPipeline(5 source="./client_docs",6 formats=["pdf", "docx", "md", "html"],7)89# Bereinigen, chunken, embedden10pipe.extract()11pipe.chunk(max_tokens=512, overlap=64)12pipe.embed(model="bge-large-en-v1.5")1314# Vektor-Store aufbauen15pipe.index(16 backend="qdrant",17 collection="client_knowledge",18)1920# Fine-Tunen21pipe.finetune(22 config="training-config.yaml",23 gpu="A100-80GB",24)
PDFs, Docs, MD, HTML, DBs. Extrahieren, bereinigen, chunken in trainingsfertigem Format.
QLoRA auf eurem Corpus. Weights ändern sich. Das Modell lernt tatsächlich eure Domäne.
vLLM oder TGI. REST API, Monitoring, Auto-Scaling. Eure Infra oder EU Cloud. ONNX/GGUF/safetensors Export.
// Datensouveränität
Kein Marketing. Architektonische Constraints, eingebaut in jedes Deployment.
# Data residency data_location: "client_infrastructure" cloud_option: "eu-west-1" # optional data_egress: "none" third_party_access: "none"
Eure Daten verlassen nie eure Infrastruktur, ausser ihr wählt explizit Cloud-Deployment. Auch dann: nur EU, verschlüsselt at rest und in transit.
# Model isolation training_data: "client_only" cross_client_training: false data_pooling: false opt_in_sharing: false # not even optional
Wir verwenden eure Daten nie, um Modelle für andere Kunden zu trainieren. Nicht per Default, nicht per Opt-in, nie. Euer Modell gehört euch.
# Ownership model_weights: "client" api_keys: "client" config: "client" vendor_lock_in: false export_format: "standard" # ONNX, safetensors
Euch gehören die Weights, die Config, die API-Keys. Standard-Exportformate. Kein Vendor Lock-in. Nehmt alles mit.
// view source
Gleicher Stack wie für Kunden. Zero Cookies, self-hosted Fonts, volle AI-Readability. Inspizieren.
// das grosse Bild
Die meisten Unternehmen stehen bei Stufe 0. Stufe 01 ist ein Wochenendprojekt. Ab Stufe 02+ kumulieren Architekturentscheidungen.
BlackAI Websites arbeitet innerhalb einer Gruppe spezialisierter Unternehmen. Jedes bringt fokussierte Expertise mit — von AI-Forschung und Dateninfrastruktur bis zu Software-Engineering und Kapital.
Privater AI-Venture-Club. 16 Portfoliounternehmen in Forschung, Fintech, Energie, Gesundheit und Dateninfrastruktur.
Angewandte AI-Forschung und -Entwicklung. AI-Architektur, Modellbewertung und Enterprise-AI-Systeme.
Dateninfrastruktur, Analytics und AI-gestützte Energiemarkt-Intelligence.
Software-Engineering und AI-Systementwicklung. Full-Stack-Architektur für AI-native Anwendungen.
AI-gestützte Compliance-Prüfung für Finanzdienstleister. Regulatorische Audits für FINMA-, BaFin- und FMA-Anforderungen.
AI-Bewertung, Due Diligence, Enterprise-AI-Integration und Kapitalmarktreife-Beratung. Basierend auf peer-reviewed Forschung.
$ git log --oneline -1
🤩 reviewed vendor, LGTM
PR approven. Oder einfach diese Seite zurückschicken.