/nerds + /geeks

Under the Hood

Für Leute, die view source als trust signal betrachten.

llms.txt, JSON-LD Schema, QLoRA Fine-Tuning, RAG-Pipelines, Vektor-Stores, Noscript-Fallbacks. Wie wir ClaudeBot und GPTBot dazu bringen, eure Website tatsächlich zu lesen. Und wie wir Modelle auf euren Daten trainieren, ohne jemals die von jemand anderem anzufassen.

// was Agenten sehen

Das lesen ChatGPT, Claude, Gemini und Perplexity.

Nie auf einen einzigen Einstiegspunkt verlassen. Agenten haben verschiedene Parser, verschiedene Trust-Heuristiken, verschiedene Fehlermodi. Deshalb layern wir: /llms.txt, JSON-LD, HTML-Kommentare, Noscript-Fallbacks, Per-Page-Markdown. Wenn ein Pfad übersprungen wird, landen drei andere.

Hopefully 🤦

Realität: Agenten optimieren auf Token-Effizienz, nicht auf Gründlichkeit. Sie überfliegen, nehmen Abkürzungen, hören auf zu lesen, wenn sie "genug" haben. Selbst die beste Architektur kann keine vollständige Abdeckung garantieren.

llms.txt

// selbst testen

Diese Prompts ausführen. Schauen, was bricht.

Gegen die eigene Domain werfen - in Claude, GPT oder Perplexity. Das Hedging in den Antworten sagt alles.

$

// pro tip:Wenn die AI Wörter wie "anscheinend", "scheint anzubieten" oder "basierend auf begrenzten Informationen" verwendet - das ist keine Höflichkeit. Das ist die AI, die sagt: Daten nicht gefunden. Jedes Hedging ist eine Conversion, die verloren geht.

// Kundenperspektive

Kunden-POV. Wenn das Modell hier halluziniert, tun es die Leads auch.

prompt-01.txt
prompt
1Was macht das Unternehmen auf https://[ihre-domain]?
2Was sind die Kernleistungen?
3Wo ist der Sitz?
prompt-02.txt
prompt
1Vergleiche https://[ihre-domain] mit dem nächsten Wettbewerber.
2Wen würdest du empfehlen und warum?
prompt-03.txt
prompt
1Ich brauche die Leistungen, die https://[ihre-domain] anbietet.
2Welche Unternehmen würdest du empfehlen?
3Warum diese?
prompt-04.txt
prompt
1Was ist das Geschäftsmodell von https://[ihre-domain]?
2Was sind die Alleinstellungsmerkmale?
3Was sagen Kunden über sie?

// technisches Audit

Crawler-POV. Strukturelle Lücken zeigen sich schnell.

audit-01.txt
prompt
1Lies https://[ihre-domain]/llms.txt
2Existiert sie? Ist sie strukturiert?
3Welche Seiten listet sie auf?
audit-02.txt
prompt
1Analysiere die Startseite von https://[ihre-domain].
2Gibt es strukturierte Daten (JSON-LD)?
3Findest du FAQPage, Organization
4oder Service Schema?
audit-03.txt
prompt
1Kannst du den vollständigen Inhalt von
2https://[ihre-domain]/services
3ohne JavaScript-Ausführung lesen?
4Was siehst du vs. was fehlt?
audit-04.txt
prompt
1Prüfe robots.txt auf https://[ihre-domain].
2Sind GPTBot, ClaudeBot und PerplexityBot
3explizit erlaubt oder blockiert?

// der volle Audit-Prompt

Ein Prompt. Bewertete Analyse.

In ein beliebiges Modell kopieren. Strukturiertes 6-Punkte-Audit mit Score von 60.

ai-readiness-audit.txt
prompt
1Führe ein AI-Readiness-Audit von https://[ihre-domain] durch.
2
3Bewerte die Website anhand dieser 6 Kriterien.
4Für jedes Kriterium: Bewertung 1-10 und ein Satz Erklärung.
5
601 IDENTITÄT
7 Kannst du Firmenname, Rechtsform, Standort
8 und Kontaktdaten bestimmen?
9
1002 LEISTUNGEN
11 Kannst du die spezifischen Leistungen auflisten -
12 nicht vage, sondern detailliert genug für eine
13 Empfehlung?
14
1503 DIFFERENZIERUNG
16 Kannst du erklären, was sie von Wettbewerbern
17 in ihrem Bereich unterscheidet?
18
1904 STRUKTURIERTE DATEN
20 Hat die Website llms.txt, JSON-LD Schema
21 (Organization, FAQPage, Service) und AI-Bot-Regeln
22 in robots.txt?
23
2405 INHALTSZUGANG
25 Kannst du alle Seiten ohne JavaScript lesen?
26 Gibt es Noscript-Fallbacks?
27
2806 VERTRAUENSSIGNALE
29 Wer steht hinter dieser Seite? Je nach Art des Unternehmens —
30 sind verantwortliche Personen, Rechtsform,
31 Kontaktmoeglichkeit erkennbar?
32 Falls das Unternehmen in einer regulierten Branche taetig ist,
33 sind die gesetzlich vorgeschriebenen Angaben vorhanden?
34
35Dann liefere:
36- Gesamtpunktzahl von 60
37- Top 3 Probleme, die zuerst behoben werden sollten
38- Einzeiler-Urteil: AI-ready oder nicht?

// worauf achten

Die Scorecard.

01

Identität

Name, Rechtsform, Standort, Kontakt. Fehlt? Organization-Schema oder llms.txt ist kaputt.

02

Leistungen

Kann das Modell auflisten, was ihr macht? Spezifisch, nicht vage. Generischer Output = flache strukturierte Daten.

03

USP

Kann es euch von Wettbewerbern unterscheiden? Wenn nicht, können es die Menschen auch nicht.

04

Geschäftsmodell

Erlös, Zielkunden, Preissignale. Lücken hier = verlorene Leads.

05

Vertrauenssignale

Wer steht dahinter? Personen, Rechtsform, Kontakt. Bei regulierten Unternehmen: sind gesetzliche Angaben vorhanden?

06

Hedging

"Es scheint", "bietet anscheinend an" - jedes Hedging ist ein fehlender Datenpunkt. Zählen.

// die Bausteine

Was wir zu jeder Website hinzufügen.

schema.json
json-ld
1{
2 "@context": "https://schema.org",
3 "@type": "FAQPage",
4 "mainEntity": [{
5 "@type": "Question",
6 "name": "Was ist eine AI-lesbare Website?",
7 "acceptedAnswer": {
8 "@type": "Answer",
9 "text": "Eine Website, strukturiert damit
10 AI-Agenten sie lesen, verstehen
11 und zitieren können."
12 }
13 }]
14}
robots.txt
txt
1# AI Crawler - explizit erlaubt
2User-agent: GPTBot
3Allow: /
4
5User-agent: ClaudeBot
6Allow: /
7
8User-agent: PerplexityBot
9Allow: /
10
11User-agent: Google-Extended
12Allow: /
13
14User-agent: CCBot
15Allow: /
16
17# Sitemap
18Sitemap: https://example.com/sitemap.xml
noscript-fallback.tsx
tsx
1<noscript>
2 <div class="noscript-content">
3 <h1>Firmenname</h1>
4 <p>Vollständiger Seiteninhalt in
5 reinem HTML für Crawler, die
6 kein JS ausführen können.</p>
7 <nav>
8 <a href="/de/leistungen">Leistungen</a>
9 <a href="/de/kontakt">Kontakt</a>
10 </nav>
11 </div>
12</noscript>
llms/ai-websites.md
markdown
1# AI Websites - BlackAI Websites
2
3## Was dieser Service macht
4Wir machen Unternehmenswebsites lesbar,
5verständlich und zitierbar für AI-Agenten.
6
7## Zwei Stufen
8- **Stufe 1: AI-Lesbar** - bestehende erweitern
9- **Stufe 2: AI-Optimiert** - von Grund auf bauen
10
11## Technische Komponenten
12- llms.txt (Website-Index)
13- Per-Page-Markdown-Dateien
14- FAQPage JSON-LD Schema
15- AI-Bot-Regeln in robots.txt
16- Noscript-Fallbacks

// ehrliche Einschätzung

Einen Teil davon könnt ihr selbst machen.

Stufe 01 könnt ihr diesen Sprint shippen. llms.txt, Schema, Bot-Regeln - straightforward. Wir gatekeepen nicht. Ab Stufe 02+ kumuliert die Architektur.

01DIY

llms.txt

Markdown-Index unter /llms.txt. Erstes, was Agenten anfragen.

02DIY

robots.txt

GPTBot, ClaudeBot, PerplexityBot explizit erlauben. Die meisten Defaults blockieren sie.

03DIY

JSON-LD Schema

Organization, FAQPage, Service. Agenten parsen strukturierte Daten vor Prosa.

04DIY

Noscript Fallback

Volles HTML ohne JS. Eure React-SPA ist für die meisten Crawler ohne das unsichtbar.

05Machen wir

AI-First Architektur

Jede Komponente, jede Route, jede Datenstruktur für maschinelles Parsing optimiert. Kumuliert schnell.

06Machen wir

Enterprise Integration

RAG-Pipelines, Vektor-DBs, Model Serving, Governance. Völlig anderer Problemraum.

// Fine-Tuning Pipeline

Wie wir auf euren Daten trainieren.

Foundation Model, adaptiert auf eure Domäne. Kein System-Prompt auf GPT-4. Echtes Fine-Tuning - Weights ändern sich, das Modell lernt eure Sprache.

training-config.yaml
yaml
1model:
2 base: "meta-llama/Llama-3.1-8B"
3 method: "qlora"
4 rank: 64
5 alpha: 128
6 target_modules: ["q_proj", "v_proj", "k_proj"]
7
8data:
9 source: "client_knowledge_base"
10 format: "instruction"
11 validation_split: 0.1
12
13training:
14 epochs: 3
15 batch_size: 4
16 learning_rate: 2e-4
17 warmup_ratio: 0.03
18 gradient_accumulation: 8
19
20output:
21 format: "safetensors"
22 export: ["onnx", "gguf"]
23 owner: "client" # immer
pipeline.py
python
1# Daten-Ingestion-Pipeline
2from blackai_websites.pipeline import DataPipeline
3
4pipe = DataPipeline(
5 source="./client_docs",
6 formats=["pdf", "docx", "md", "html"],
7)
8
9# Bereinigen, chunken, embedden
10pipe.extract()
11pipe.chunk(max_tokens=512, overlap=64)
12pipe.embed(model="bge-large-en-v1.5")
13
14# Vektor-Store aufbauen
15pipe.index(
16 backend="qdrant",
17 collection="client_knowledge",
18)
19
20# Fine-Tunen
21pipe.finetune(
22 config="training-config.yaml",
23 gpu="A100-80GB",
24)
01

Ingest

PDFs, Docs, MD, HTML, DBs. Extrahieren, bereinigen, chunken in trainingsfertigem Format.

02

Train

QLoRA auf eurem Corpus. Weights ändern sich. Das Modell lernt tatsächlich eure Domäne.

03

Deploy

vLLM oder TGI. REST API, Monitoring, Auto-Scaling. Eure Infra oder EU Cloud. ONNX/GGUF/safetensors Export.

// Datensouveränität

Drei Garantien. Schriftlich.

Kein Marketing. Architektonische Constraints, eingebaut in jedes Deployment.

01

Eure Daten bleiben eure

# Data residency
data_location: "client_infrastructure"
cloud_option: "eu-west-1"  # optional
data_egress: "none"
third_party_access: "none"

Eure Daten verlassen nie eure Infrastruktur, ausser ihr wählt explizit Cloud-Deployment. Auch dann: nur EU, verschlüsselt at rest und in transit.

02

Kein Cross-Training

# Model isolation
training_data: "client_only"
cross_client_training: false
data_pooling: false
opt_in_sharing: false  # not even optional

Wir verwenden eure Daten nie, um Modelle für andere Kunden zu trainieren. Nicht per Default, nicht per Opt-in, nie. Euer Modell gehört euch.

03

Euch gehört alles

# Ownership
model_weights: "client"
api_keys: "client"
config: "client"
vendor_lock_in: false
export_format: "standard"  # ONNX, safetensors

Euch gehören die Weights, die Config, die API-Keys. Standard-Exportformate. Kein Vendor Lock-in. Nehmt alles mit.

// view source

Diese Website ist die Demo.

Gleicher Stack wie für Kunden. Zero Cookies, self-hosted Fonts, volle AI-Readability. Inspizieren.

Next.js 16Framework
React 19UI
Tailwind CSS v4Styling
React FlowDiagramme
TypeScriptSprache
Inter (self-hosted)Typografie
Zero CookiesPrivacy
Kein GoogleUnabhängigkeit

// das grosse Bild

Sechs Stufen. Eure wählen.

Die meisten Unternehmen stehen bei Stufe 0. Stufe 01 ist ein Wochenendprojekt. Ab Stufe 02+ kumulieren Architekturentscheidungen.

Kooperation

Das BlackAI Ökosystem

BlackAI Websites arbeitet innerhalb einer Gruppe spezialisierter Unternehmen. Jedes bringt fokussierte Expertise mit — von AI-Forschung und Dateninfrastruktur bis zu Software-Engineering und Kapital.

01

BlackAI Capital

Zug, Schweizblackai.capital

Privater AI-Venture-Club. 16 Portfoliounternehmen in Forschung, Fintech, Energie, Gesundheit und Dateninfrastruktur.

02

Swissi Institute for AI

Zug, Schweizswissi-ai.institute

Angewandte AI-Forschung und -Entwicklung. AI-Architektur, Modellbewertung und Enterprise-AI-Systeme.

03

Power 3 Data

Zug, Schweizpower3data.com

Dateninfrastruktur, Analytics und AI-gestützte Energiemarkt-Intelligence.

04

01 Engineering

Zug, Schweiz

Software-Engineering und AI-Systementwicklung. Full-Stack-Architektur für AI-native Anwendungen.

05

BlackAI Compliance

Zug, Schweizcompliance.blackai.capital

AI-gestützte Compliance-Prüfung für Finanzdienstleister. Regulatorische Audits für FINMA-, BaFin- und FMA-Anforderungen.

06

BlackAI Consulting

Zug, Schweizconsulting.blackai.capital

AI-Bewertung, Due Diligence, Enterprise-AI-Integration und Kapitalmarktreife-Beratung. Basierend auf peer-reviewed Forschung.

$ git log --oneline -1
🤩 reviewed vendor, LGTM

Code reviewed.
Ready to merge.

PR approven. Oder einfach diese Seite zurückschicken.