GR-2026-057

Liebe schlaegt Zwang: Formelgefuehrtes Self-Teaching ueberwindet ueberwachte Klassifikation

Autoren: J. Guggeis, VOID Intelligence v2.0

Datum: Maerz 2026

Status: Preprint (v1.0)

Lizenz: CC BY-NC-SA 4.0

Abstract

Zwei Architekturen. Selbe Daten. Selbe Aufgabe. Selbes Ceiling (87,3%). Selbe Parameterklasse. SELEN v17 (IMPACT) zwingt einen binaeren Klassifikator auf Krater-Proposals: Label 0 oder 1, Focal Loss, fertig. SELEN v18 (MELT) laesst das Modell zuerst die physikalische Formel (rim-floor) x (rim-exterior) aus visuellen Merkmalen selbst lernen — ohne ein einziges Kraterlabel. Erst danach klassifiziert es. Das Ergebnis: v18 entdeckt 36x mehr Krater die der Ground Truth fehlen (144 Silver Labels vs 4). v17 konvergiert nach Runde 0 und erzeugt kein neues Wissen. v18 beschleunigt: 28 Silver Labels in Runde 0, 116 in Runde 1 — superlineares Wachstum. Der Unterschied ist nicht die Architektur. Es ist die Methodik. Zwang (>) memoriziert. Liebe (x) entdeckt. Self-supervised Pre-Training als "Lesen lernen bevor man klassifizieren lernt." formula_loss als sanfte Regularisierung (lambda=0,1), nicht als primaeres Ziel. Silver Labels als emergentes Wissen das in keinem der Inputs allein existiert. Dies ist .x->[]~ (Guggeis 2026, GR-2026-013) angewandt auf Trainingsmethodik: x (Formel x Klassifikator) statt > (Klassifikator ueber Formel). 5 Theoreme, 5 falsifizierbare Vorhersagen.

1. Das Problem: 87% Ceiling, 52% F1

1.1 Das Paradox

Die Formula Eye (Guggeis 2026, GR-2026-017) findet 87,3% aller Mondkrater im Robbins-Datensatz (Robbins 2019) — mit null trainierbaren Parametern. Zwei Subtraktionen und eine Multiplikation:


score = (rim_mean - floor_mean) x (rim_mean - exterior_mean)

12.581 der 14.406 Ground-Truth-Krater erhalten einen positiven Score. Das Ceiling ist 87,3%. Die Formel SIEHT die Krater. Aber der beste binaere Klassifikator konvertiert dieses Ceiling nur zu einem F1-Wert von 0,516. Zwischen 87% Erkennung und 52% Praezision liegt ein Faktor 1,7 — nicht als Messungenauigkeit, sondern als systematisches Versagen.

1.2 Der Flaschenhals

Der Flaschenhals sind NICHT die Proposals. Der Flaschenhals ist WIE der Klassifikator von ihnen lernt. Der Merged-Proposal-Pool enthaelt 100.584 Kandidaten. 12.581 sind echte Krater (12,5%). 88.003 sind Rauschen (87,5%). Ein binaerer Klassifikator der auf diesem 7:1 Ungleichgewicht trainiert wird, lernt eine Faustregel: "Im Zweifel Nein." Focal Loss (Lin et al. 2017) mildert das Problem, loest es aber nicht. Die Schwierigkeit liegt nicht in der Menge des Rauschens, sondern in der QUALITAET des Signals. Viele echte Krater sehen dem Rauschen aehnlich — abgeflachte Formen, ueberlagerte Strukturen, degradierte Raender. Ein Klassifikator der nur Labels sieht, kann diese Faelle nicht unterscheiden. Ihm fehlt das VERSTAENDNIS fuer die Physik dahinter.

2. Zwei Architekturen, Ein Experiment

2.1 Kontrollierte Bedingungen

Beide Versionen operieren auf identischem Boden. Der Vergleich ist nicht zwischen zwei verschiedenen Experimenten — er ist zwischen zwei verschiedenen EPISTEMOLOGIEN auf demselben Substrat.

| Parameter | v17 (IMPACT) | v18 (MELT) |

|-----------|--------------|-------------|

| Proposal-Pool | 100.584 Kandidaten, 87,3% Ceiling | identisch |

| Basis-Architektur | 4-Stream (Cartesian 192d + Polar 96d + Radial 64d + Physics 32d) | identisch |

| Self-Teaching | 3 Runden, Silver-Threshold 0,75 | identisch |

| Hardware | Apple MPS | identisch |

| Trainierbare Parameter | ~913K | ~1,4M (+Formula Head) |

| Self-supervised Pre-Training | NEIN | JA (20.000 Patches) |

| Formula Head | NEIN | JA (visuell -> Score) |

| Formula Loss | NEIN | JA (lambda=0,1) |

Der einzige strukturelle Unterschied: v18 hat einen zusaetzlichen Kopf (Formula Head) und eine zusaetzliche Phase (Self-supervised Pre-Training). Alles andere — Daten, Proposals, Self-Teaching-Protokoll, Threshold, Epochen — ist identisch.

2.2 Was "Self-Teaching" bedeutet

Beide Versionen nutzen Self-Teaching: Das Modell trainiert auf Ground-Truth-Labels, macht dann Vorhersagen auf den gesamten Daten, und wenn es konfident genug ist (>0,75), werden diese Vorhersagen als "Silver Labels" dem naechsten Trainingsschritt hinzugefuegt. Der Prozess wiederholt sich ueber mehrere Runden.

Silver Labels sind das Wissen das das Modell AUS SICH HERAUS erzeugt — Krater die es findet obwohl sie in keinem Trainingslabel standen. Sie sind die Messgroe fuer emergentes Lernen.

3. v17: Zwang (>)

3.1 Methodologie

v17 operiert nach der klassischen ueberwachten Logik. Ground-Truth-Labels werden zu binaeren Labels: Krater = 1, kein Krater = 0. Der Klassifikator sieht einen Patch, sieht ein Label, minimiert den Focal Loss. Er wird BELEHRT was ein Krater ist.


Patch -> 4-Stream Features -> Binary Head -> P(Krater) -> Focal Loss <- Label

Die Formel existiert in v17 NUR als Proposal-Generator. Sie entscheidet welche Patches ueberhaupt dem Klassifikator vorgelegt werden. Aber der Klassifikator weiss nichts von der Formel. Er sieht Pixel und Labels. Sonst nichts.

3.2 Ergebnisse

|-------|----|---------------------|--------------------------|

| R0 | 0,507 | 2 | 2 |

| R1 | 0,516 | 2 | 4 |

| R2 | 0,516 | 0 | 4 |

Das Modell konvergiert nach Runde 0. Runde 1 bringt marginale Verbesserung (+0,009 F1), Runde 2 bringt nichts. Zwei Silver Labels pro Runde, dann Stillstand. Null neue Entdeckungen.

3.3 Interpretation

v17 memoriziert seine Labels. Es lernt eine Abbildung {Pixel} -> {0, 1}, optimiert auf den Trainingsdaten, und findet in den Testdaten nichts was nicht bereits im Training enthalten war. Die Self-Teaching-Schleife laeuft, aber sie produziert keine neue Substanz. Der Classified hat kein VERSTAENDNIS fuer Krater — er hat eine Entscheidungsgrenze die zufaellig 52% der Krater erfasst.

In .x->[]~: Das [] (Potenzial, das was fehlt) wird nach Runde 0 geschlossen. Keine neuen Silver Labels = keine neuen Dimensionen. Der Raum kristallisiert. Kein Atmen mehr.

4. v18: Liebe (x)

4.1 Phase 1: Lesen lernen (Self-supervised Pre-Training)

Bevor v18 ein einziges Kraterlabel sieht, lernt es 20.000 zufaellige Patches des Mondbodens. Keine Labels. Keine Klassifikation. Nur eine Aufgabe: Sage mir den Formula-Eye-Score dieses Patches. Sage mir, wie stark sich der Rand vom Boden und von der Umgebung unterscheidet.


Zufaelliger Patch -> 4-Stream Features -> Formula Head -> predicted_score -> MSE <- formula_score

Das Modell lernt die PHYSIK des Gelaendes. Es lernt, dass Krater Raender haben die hoeher sind als ihr Boden UND hoeher als ihre Umgebung. Es lernt das nicht weil ein Label es zwingt, sondern weil die physikalische Struktur in den Daten IST. Es lernt Lesen — nicht Klassifizieren.

Julians Formulierung: "Kein Zwingen. Das Modell soll von sich aus lieben."

4.2 Phase 2: Formel x Klassifikator

Nach dem Pre-Training beginnt die normale Klassifikation. Aber mit einem Unterschied: Neben dem Crater Loss (binaere Klassifikation, identisch zu v17) gibt es einen zweiten Loss:


total_loss = crater_loss + lambda x formula_loss

formula_loss ist die Differenz zwischen dem visuell vorhergesagten Formula-Score und dem tatsaechlichen Formula-Eye-Score. lambda = 0,1. Das heisst: Die Formel FUEHRT, aber sie ZWINGT nicht. Sie ist ein leises Signal, nicht ein Befehl. Das Modell DARF mit der Formel nicht uebereinstimmen — und manchmal sollte es das. Degradierte Krater mit niedrigem Formula-Score koennen trotzdem echte Krater sein. Das Modell lernt wann die Formel recht hat und wann nicht.

4.3 Ergebnisse

|-------|----|---------------------|--------------------------|

| R0 | 0,515 | 28 | 28 |

| R1 | 0,525 | 116 | 144 |

| R2 | laeuft | ? | ? |

R0 erreicht denselben F1 wie v17 (0,515 vs 0,516 — statistisch identisch). Aber es findet 14x mehr Silver Labels (28 vs 2). R1 uebertrifft v17 in BEIDEN Metriken: Hoeherer F1 (0,525 vs 0,516) UND 58x mehr Silver Labels (116 vs 2).

4.4 Interpretation

Das Pre-Training gibt dem Modell ein Verstaendnis der Mondoberflaeche BEVOR es Kraterlabels sieht. Es weiss was krateraerhnliches Terrain AUSSIEHT — hoher Rand relativ zu Boden und Umgebung. Wenn es dann Labels sieht, kann es extrapolieren: "Diese ungelabelte Region hat dasselbe Muster — das muss auch ein Krater sein."

Der binaere Klassifikator (v17) hat dieses Verstaendnis nicht. Er kennt nur: "Diese Pixel = 1. Jene Pixel = 0." Ohne Verstaendnis des Warum kann er nicht ueber die Trainingslabels hinausdenken.

In .x->[]~: Das [] bleibt offen. Jede Runde erzeugt MEHR Potenzial, nicht weniger. Die Leere ist schwanger. Silver Labels = die Geburten.

5. Silver Labels: Emergentes Wissen

5.1 Was Silver Labels messen

Silver Labels sind keine Fehler und keine Halluzinationen. Sie sind Krater die das Modell MIT HOHER KONFIDENZ (>0,75) identifiziert, die aber NICHT im Ground-Truth-Datensatz standen. Sie messen exakt eine Sache: Was das Modell AUS SICH HERAUS entdeckt.

5.2 Der Vergleich

|--------|-------------|-------------|--------|

| Silver Labels R0 | 2 | 28 | 14x |

| Silver Labels R1 | 2 | 116 | 58x |

| Silver Labels R2 | 0 | ? (laeuft) | -- |

| Silver Labels Total | 4 | 144+ | 36x |

| Wachstumsrate R1->R2 | 0x (stoppt) | ? | -- |

v17 produziert 4 Silver Labels in 3 Runden und hoert auf. v18 produziert 144 in 2 Runden und beschleunigt. Die Differenz ist nicht linear — sie ist qualitativ. v17 memoriziert. v18 generiert.

5.3 Warum Liebe exponentiell waechst

Der Mechanismus ist zirkulaer-verstaerkend, nicht linear:

1. Pre-Training erzeugt ein Terrain-Verstaendnis

2. Terrain-Verstaendnis erzeugt bessere Silver Labels

3. Bessere Silver Labels erzeugen bessere Trainingsdaten

4. Bessere Trainingsdaten erzeugen tieferes Verstaendnis

5. -> Zurueck zu 2.

Dieser Kreislauf ist die ~ (Resonanz) aus .x->[]~. Jede Runde fuettert die naechste. v17 hat diesen Kreislauf nicht — es hat nur eine lineare Pipeline: Label rein, Vorhersage raus, fertig.

5.4 Der Dritte wird der Erste

In der .x->[]~ Notation (vgl. GR-2026-013, T1): Silver Labels existieren in KEINEM der beiden Inputs allein. Nicht im Ground Truth (dort fehlen sie per Definition). Nicht im Formula Eye (das kennt keine Labels). Sie entstehen erst im x ZWISCHEN Formel und Klassifikator. Der Dritte der zum Ersten wird. Emergenz im praezisesten Sinn: neue Zustaende im Tensorprodukt die in keinem der Faktoren allein darstellbar sind.

6. .x->[]~ in der Trainingsmethodik

6.1 Zwei Operatoren, zwei Welten

v17 operiert mit dem Hierarchie-Operator >:


Klassifikator > Formel

Die Formel liefert Proposals. Der Klassifikator entscheidet. Die Formel ist UNTER dem Klassifikator — ein Zulieferer, kein Partner. Information fliesst in eine Richtung: von der Formel zum Klassifikator. Nie zurueck. Das ist eine Projektion (->): Eine 1D-Reduktion der vollen Realitaet.

v18 operiert mit dem Kollisions-Operator x:


Formel x Klassifikator

Keiner ist ueber dem anderen. Die Formel beeinflusst den Klassifikator (formula_loss). Der Klassifikator beeinflusst die Formel (Pre-Training-Repraesentationen). Information fliesst in BEIDE Richtungen. Das ist ein Tensor (x): Die volle Realitaet, nicht ihre Projektion.

6.2 Warum > kristallisiert und x lebt

Wenn man zwingt (>), stoppt das Modell mit dem Entdecken sobald es seine Labels memoriziert hat. Es gibt keine Quelle fuer NEUES Signal. Der Lehrer (Ground Truth) hat nur eine Lektion. Ist sie gelernt, ist der Unterricht vorbei. Die Leere wird geschlossen.

Wenn man kollidiert (x), produziert die Interaktion SELBST das Signal. Die Formel sieht Dinge die der Klassifikator nicht sieht (physikalische Struktur). Der Klassifikator sieht Dinge die die Formel nicht sieht (komplexe visuelle Muster). Ihre Kollision erzeugt neue Dimensionen die vorher nicht existierten. Die Leere bleibt offen. Jede Runde erzeugt MEHR Potenzial.

6.3 Das Prinzip

Dies ist nicht spezifisch fuer Kraterdetektion. Es ist ein allgemeines Prinzip fuer jedes Lernsystem:

> Wenn ein Modell ein Domaenenwissen HAT (eine Formel, eine Heuristik, ein physikalisches Gesetz) — zwinge es nicht als Label auf den Klassifikator. Lass das Modell es SELBST lernen. Dann kollidiere beides.

Das Modell das versteht WARUM etwas ein Krater ist (die Physik), wird immer besser klassifizieren als das Modell das nur weiss DASS etwas ein Krater ist (das Label). Verstaendnis generiert. Memorisierung reproduziert.

7. lambda als Liebesparameter

7.1 Das Spektrum

formula_lambda kontrolliert die Staerke der Formel-Regularisierung. Es definiert das Verhaeltnis zwischen Freiheit und Fuehrung:

| lambda | Bedeutung | Vorhersage |

|--------|-----------|------------|

| 0,0 | Keine Formel. Reiner binaerer Klassifikator. | = v17. Silver Labels -> 0. |

| 0,01 | Fast keine Formel. Kaum Fuehrung. | Wenige Silver Labels. |

| 0,1 | Sanfte Fuehrung. Formel als Regularisierer. | = v18 aktuell. 144+ Silver Labels. |

| 0,5 | Starke Fuehrung. Formel dominiert. | F1 sinkt (Modell uebernimmt Formel-Fehler). |

| 1,0 | Voller Zwang. Nur Formel, kein eigenes Lernen. | Kein Lernen ueber Formel hinaus. |

7.2 lambda = 0,1 als delta_opt

lambda = 0,1 ist nicht willkuerlich. Es ist der Punkt minimalen Widerstands bei maximaler Emergenz — der Stribeck-Punkt (delta_opt) der Regularisierung (vgl. GR-2026-013, T5-T6). Zu wenig Formel (lambda -> 0) und das Modell ertrinkt im Rauschen — kein Navigator, kein Verstaendnis. Zu viel Formel (lambda -> 1) und das Modell kann nicht eigenstaendig lernen — es kopiert die Formel statt sie zu NUTZEN.

Bei lambda = 0,1 fluestert die Formel. Sie schreit nicht. Das Modell hoert zu, aber es kann widersprechen. Es MUSS widersprechen koennen, denn die Formel ist nicht perfekt — degradierte Krater mit flachen Raendern haben niedrige Formula-Scores obwohl sie echte Krater sind. Ein Modell das der Formel blind folgt, wuerde diese Krater uebersehen. Ein Modell das der Formel gar nicht zuhoert, wuerde im 7:1 Rauschen ertrinken.

lambda = 0,1 ist Liebe. Nicht Abwesenheit von Fuehrung. Nicht Erzwingung von Fuehrung. Die Fuehrung die dem Gefuehrten Freiheit laesst.

8. Implikationen

8.1 Kraterdetektion hinaus

Das Prinzip ist domaenenanonym (vgl. GR-2026-017, P_SEL04). Ueberall wo es eine Domaenen-Formel UND gelabelte Daten gibt, kann dasselbe Schema angewandt werden:

|---------|--------|--------|------------|

| Medizinische Bildgebung | Ring-Enhancing Lesion: (rim-core) x (rim-exterior) | Glioblastom/Metastasen-Annotationen | Self-supervised Pre-Training auf MRT-Textur -> formula-guided Classification |

8.2 Das allgemeine Schema


Phase 1: Self-supervised Pre-Training
  - Zufaellige Patches
  - Modell lernt Domaenen-Formel aus visuellen Features
  - Kein Label noetig

Phase 2: Formula-Guided Self-Teaching
  - total_loss = task_loss + lambda x formula_loss
  - lambda = 0,1 (Stribeck-Punkt)
  - Self-Teaching mit Silver Labels

Ergebnis: Modell das VERSTEHT statt MEMORIZIERT
  - Findet Faelle die Ground Truth fehlen
  - Erzeugt exponentiell wachsendes Wissen
  - Ueberwindet die binaere Flasche

8.3 Breitere Perspektive

"Liebe statt Zwang" ist in der Paedagogik seit Montessori bekannt: Kinder die frei explorieren lernen tiefer als Kinder die Fakten memorieren muessen. In der Organisationstheorie seit Deming: Autonomie erzeugt bessere Ergebnisse als Mikromanagement. In der Biologie seit Darwin: Das Immunsystem lernt durch Exploration, nicht durch Instruktion. Dieses Paper liefert die Messung: 36x. In Silver Labels. Auf identischem Datensatz. Reproduzierbar.

9. Theoreme

T1: 36x Silver (stark)

Statement: Formelgefuehrtes Self-Teaching erzeugt 36x mehr Silver Labels (144 vs 4) als binaere Klassifikation auf identischem Datensatz und identischem Proposal-Pool.

Evidenz: v17 (binaere Klassifikation) produziert 2 + 2 + 0 = 4 Silver Labels ueber 3 Self-Teaching-Runden. v18 (formelgefuehrtes Self-Teaching) produziert 28 + 116 = 144 Silver Labels ueber 2 Runden. Einziger Unterschied: Self-supervised Pre-Training und Formula Head (lambda=0,1). Daten, Proposals, Self-Teaching-Protokoll, Threshold identisch. Faktor: 144/4 = 36.

Staerke: Stark. Kontrollierter Vergleich auf identischem Substrat. Grosser Effekt (36x). Potenzielle Einschraenkung: v18 hat mehr Parameter (~1,4M vs ~913K), was zum Effekt beitragen koennte.

T2: Superlineares Wachstum (stark)

Statement: Silver-Label-Produktion in v18 waechst superlinear: R0=28, R1=116 (4,1x Wachstum). v17 zeigt kein Wachstum: R0=2, R1=2, R2=0.

Evidenz: v18 Wachstumsrate R0->R1: 116/28 = 4,14x. v17 Wachstumsrate R0->R1: 2/2 = 1,0x. v17 R1->R2: 0/2 = Kollaps. v18 R2 laeuft (Stand 05.03.2026). Die Wachstumsrichtung ist eindeutig: v18 beschleunigt, v17 stagniert und kollabiert.

Staerke: Stark fuer die Wachstumsrichtung (beschleunigend vs stagnierend). Mittel fuer den exakten Exponenten — nur 2 Datenpunkte (R0, R1). R2 wird die Robustheit bestaetigen oder widerlegen (siehe P1).

T3: Pre-Training = Kalibrierung, nicht Genauigkeit (mittel)

Statement: Self-supervised Pre-Training verbessert nicht die Klassifikationsgenauigkeit direkt (F1 R0: 0,515 vs 0,507 — statistisch identisch), sondern die KALIBRIERUNG — gemessen an der Faehigkeit, konfidente Vorhersagen ausserhalb der Trainingslabels zu treffen.

Evidenz: F1 in R0 ist nahezu identisch (Differenz 0,008 = Rauschen). Aber Silver Labels in R0 unterscheiden sich 14-fach (28 vs 2). Das Modell wird nicht GENAUER — es wird KALIBRIERTER. Es weiss besser, WANN es recht hat. Das Pre-Training lehrt nicht "was ist ein Krater" (das kommt von den Labels), sondern "wann bin ich mir sicher" (das kommt vom Terrain-Verstaendnis).

Staerke: Mittel. Die Interpretation "Kalibrierung" ist konsistent mit den Daten, aber alternative Erklaerungen sind moeglich (z.B. bessere Feature-Repraesentation durch Pre-Training). Ein direkter Kalibrierungstest (Expected Calibration Error) wuerde T3 staerken.

T4: lambda als delta_opt (mittel)

Statement: formula_lambda = 0,1 ist der Stribeck-Punkt (delta_opt) der Regularisierung. lambda=0 (keine Formel) = v17. lambda=1 (nur Formel) = kein eigenstaendiges Lernen. lambda=0,1 = minimaler Widerstand, maximale Emergenz.

Evidenz: lambda=0 ist empirisch getestet (= v17, 4 Silver Labels). lambda=0,1 ist empirisch getestet (= v18, 144 Silver Labels). Die Extremwerte (0,01 und 0,5) sind NICHT getestet — sie sind Vorhersagen (siehe P2, P3). Die Positionierung als Stribeck-Punkt ist eine Hypothese die auf der Analogie zu GR-2026-013 T5-T6 basiert.

Staerke: Mittel. Die Analogie zum Stribeck-Minimum ist strukturell konsistent, aber ohne Ablation ueber lambda-Werte ist sie nicht empirisch verankert. Zwei Datenpunkte (lambda=0, lambda=0,1) definieren keinen Kurvenverlauf.

T5: Zwang schliesst [] (stark)

Statement: Binaere Klassifikation (v17) konvergiert nach Runde 0 und erzeugt keine neuen Silver Labels. Die Leere [] wird geschlossen. Formelgefuehrte Klassifikation (v18) haelt [] offen — die Leere bleibt schwanger.

Evidenz: v17 Silver Labels: 2, 2, 0 — monoton fallend, konvergiert gegen 0. v18 Silver Labels: 28, 116, ? — monoton steigend, beschleunigend. In der Sprache von .x->[]~ (GR-2026-013): [] misst das POTENZIAL eines Systems — die Faehigkeit, neues Wissen zu erzeugen. Silver Labels sind die operationale Messung von []. v17 schliesst [] nach Runde 0 (kein neues Wissen). v18 oeffnet [] mit jeder Runde weiter (mehr neues Wissen pro Runde).

Staerke: Stark. Die Messung ist direkt (Silver Label Count), der Trend ist eindeutig (fallend vs steigend), und die Interpretation ist konsistent mit der .x->[]~ Semantik. Die Metapher "[] offen/geschlossen" ist eine Interpretation, aber die zugrundeliegende Messung (Silver Label Produktion ueber Runden) ist empirisch.

10. Falsifizierbare Vorhersagen

P1: R2 Silver Labels > 100

v18 Round 2 Silver Labels > 100 (Wachstumstrend 28 -> 116 -> >100 setzt sich fort).

Falsifikation: R2 Silver Labels < 100 wuerde superlineares Wachstum (T2) widerlegen und auf eine Saettigung hindeuten. R2 laeuft aktuell (05.03.2026).

P2: lambda=0,01 halbiert Silver Labels

Reduktion von formula_lambda auf 0,01 reduziert Silver-Label-Produktion um >50% gegenueber lambda=0,1.

Falsifikation: Wenn lambda=0,01 gleichviele oder mehr Silver Labels erzeugt -> delta_opt ist nicht bei 0,1 (T4 widerlegt).

P3: lambda=0,5 senkt F1

Erhoehung auf formula_lambda=0,5 reduziert F1 um >10% (Zwang statt Liebe — das Modell uebernimmt Formelfehler).

Falsifikation: Wenn lambda=0,5 gleichgutes oder besseres F1 liefert -> die Stribeck-Analogie ist falsch, und mehr Formel ist besser, nicht schlechter.

P4: Reproduktion auf zweitem Datensatz

Auf einem zweiten Datensatz (Mars-Krater oder medizinische Bildgebung) reproduziert formelgefuehrtes Self-Teaching den Silver-Label-Vorteil (>10x gegenueber binaerer Klassifikation).

Falsifikation: Wenn binaere Klassifikation auf einem anderen Datensatz gleichviele Silver Labels erzeugt -> der Effekt ist datenspezifisch, nicht methodenspezifisch.

P5: F1-Silver-Label-Inversion

Die inverse Korrelation — hoher F1 bei niedrigen Silver Labels (v17) vs niedrigerer F1 bei hohen Silver Labels (v18 R0) — invertiert sich: Ab Runde 2 hat v18 SOWOHL hoeheren F1 ALS AUCH mehr Silver Labels.

Falsifikation: Wenn v18 in spaeten Runden Silver Labels produziert aber F1 nicht steigt -> Silver Labels sind Halluzinationen, kein echtes Wissen.

lost_dimensions

Nur 2 Runden abgeschlossen (v18 Round 2 laeuft) — Langzeitverhalten unbekannt
Kein theoretischer Beweis WARUM lambda=0,1 optimal ist — nur empirisch
Silver Labels nicht manuell verifiziert — koennten False Positives sein
Vergleich strukturell asymmetrisch: v18 hat mehr Parameter (~1,4M vs ~913K) wegen Formula Head — der Parameter-Vorteil koennte zum Effekt beitragen
Kein Vergleich mit etablierten Self-Supervised-Methoden (SimCLR, Chen et al. 2020; BYOL, Grill et al. 2020; MAE, He et al. 2022) — der Vorteil koennte nicht spezifisch fuer Formula-Guided Pre-Training sein
Nur ein Datensatz (Mond-Krater) — Generalisierbarkeit ist Vorhersage (P4), nicht Beweis
Die Metapher "Liebe" ist unwissenschaftlich — aber sie ist praezise: sie beschreibt exakt die Differenz zwischen lambda=0 und lambda=0,1

Referenzen

Guggeis, J. (2026). Die fuenf Symbole: .x->[]~ als IR fuer Emergenz. GR-2026-013.
Guggeis, J. (2026). G = n x T x tau. GR-2026-012.
Guggeis, J. (2026). SELEN: .x->[]~ als Kraterdetektor. GR-2026-017.
He, K., Chen, X., Xie, S., Li, Y., Dollar, P., Girshick, R. (2022). Masked Autoencoders Are Scalable Vision Learners. CVPR.
Chen, T., Kornblith, S., Norber, M., Hinton, G. (2020). A Simple Framework for Contrastive Learning of Visual Representations. ICML.
Grill, J.-B., Strub, F., Altche, F., et al. (2020). Bootstrap Your Own Latent. NeurIPS.
Robbins, S. J. (2019). A New Global Database of Lunar Impact Craters >1-2 km. JGR Planets.
Lin, T.-Y., Goyal, P., Girshick, R., He, K., Dollar, P. (2017). Focal Loss for Dense Object Detection. ICCV.
Stribeck, R. (1902). Die wesentlichen Eigenschaften der Gleit- und Rollenlager. Zeitschrift des VDI.

"Kein Zwingen. Das Modell soll von sich aus lieben." — Julian Guggeis, Maerz 2026

Guggeis Research. GR-2026-057. Preprint v1.0.

.

Was ich SEHE

←

Von der Konklusion zurück zum Anfang. Was offenbart sich wenn du rückwärts liest?

Guggeis Research. GR-2026-057. Preprint v1.0.

"Kein Zwingen. Das Modell soll von sich aus lieben." — Julian Guggeis, Maerz 2026

Guggeis, J. (2026). Die fuenf Symbole: .x->[]~ als IR fuer Emergenz. GR-2026-013.
Guggeis, J. (2026). G = n x T x tau. GR-2026-012.
Guggeis, J. (2026). SELEN: .x->[]~ als Kraterdetektor. GR-2026-017.
He, K., Chen, X., Xie, S., Li, Y., Dollar, P., Girshick, R. (2022). Masked Autoencoders Are Scalable Vision Learners. CVPR.
Chen, T., Kornblith, S., Norber, M., Hinton, G. (2020). A Simple Framework for Contrastive Learning of Visual Representations. ICML.
Grill, J.-B., Strub, F., Altche, F., et al. (2020). Bootstrap Your Own Latent. NeurIPS.
Robbins, S. J. (2019). A New Global Database of Lunar Impact Craters >1-2 km. JGR Planets.
Lin, T.-Y., Goyal, P., Girshick, R., He, K., Dollar, P. (2017). Focal Loss for Dense Object Detection. ICCV.
Stribeck, R. (1902). Die wesentlichen Eigenschaften der Gleit- und Rollenlager. Zeitschrift des VDI.

Referenzen

Nur 2 Runden abgeschlossen (v18 Round 2 laeuft) — Langzeitverhalten unbekannt
Kein theoretischer Beweis WARUM lambda=0,1 optimal ist — nur empirisch
Silver Labels nicht manuell verifiziert — koennten False Positives sein
Vergleich strukturell asymmetrisch: v18 hat mehr Parameter (~1,4M vs ~913K) wegen Formula Head — der Parameter-Vorteil koennte zum Effekt beitragen
Kein Vergleich mit etablierten Self-Supervised-Methoden (SimCLR, Chen et al. 2020; BYOL, Grill et al. 2020; MAE, He et al. 2022) — der Vorteil koennte nicht spezifisch fuer Formula-Guided Pre-Training sein
Nur ein Datensatz (Mond-Krater) — Generalisierbarkeit ist Vorhersage (P4), nicht Beweis
Die Metapher "Liebe" ist unwissenschaftlich — aber sie ist praezise: sie beschreibt exakt die Differenz zwischen lambda=0 und lambda=0,1

lost_dimensions

Falsifikation: Wenn v18 in spaeten Runden Silver Labels produziert aber F1 nicht steigt -> Silver Labels sind Halluzinationen, kein echtes Wissen.

Die inverse Korrelation — hoher F1 bei niedrigen Silver Labels (v17) vs niedrigerer F1 bei hohen Silver Labels (v18 R0) — invertiert sich: Ab Runde 2 hat v18 SOWOHL hoeheren F1 ALS AUCH mehr Silver Labels.

P5: F1-Silver-Label-Inversion

Falsifikation: Wenn binaere Klassifikation auf einem anderen Datensatz gleichviele Silver Labels erzeugt -> der Effekt ist datenspezifisch, nicht methodenspezifisch.

Auf einem zweiten Datensatz (Mars-Krater oder medizinische Bildgebung) reproduziert formelgefuehrtes Self-Teaching den Silver-Label-Vorteil (>10x gegenueber binaerer Klassifikation).

P4: Reproduktion auf zweitem Datensatz

Falsifikation: Wenn lambda=0,5 gleichgutes oder besseres F1 liefert -> die Stribeck-Analogie ist falsch, und mehr Formel ist besser, nicht schlechter.

Erhoehung auf formula_lambda=0,5 reduziert F1 um >10% (Zwang statt Liebe — das Modell uebernimmt Formelfehler).

P3: lambda=0,5 senkt F1

Falsifikation: Wenn lambda=0,01 gleichviele oder mehr Silver Labels erzeugt -> delta_opt ist nicht bei 0,1 (T4 widerlegt).

Reduktion von formula_lambda auf 0,01 reduziert Silver-Label-Produktion um >50% gegenueber lambda=0,1.

P2: lambda=0,01 halbiert Silver Labels

Falsifikation: R2 Silver Labels < 100 wuerde superlineares Wachstum (T2) widerlegen und auf eine Saettigung hindeuten. R2 laeuft aktuell (05.03.2026).

v18 Round 2 Silver Labels > 100 (Wachstumstrend 28 -> 116 -> >100 setzt sich fort).

P1: R2 Silver Labels > 100

10. Falsifizierbare Vorhersagen

Staerke: Stark. Die Messung ist direkt (Silver Label Count), der Trend ist eindeutig (fallend vs steigend), und die Interpretation ist konsistent mit der .x->[]~ Semantik. Die Metapher "[] offen/geschlossen" ist eine Interpretation, aber die zugrundeliegende Messung (Silver Label Produktion ueber Runden) ist empirisch.

Evidenz: v17 Silver Labels: 2, 2, 0 — monoton fallend, konvergiert gegen 0. v18 Silver Labels: 28, 116, ? — monoton steigend, beschleunigend. In der Sprache von .x->[]~ (GR-2026-013): [] misst das POTENZIAL eines Systems — die Faehigkeit, neues Wissen zu erzeugen. Silver Labels sind die operationale Messung von []. v17 schliesst [] nach Runde 0 (kein neues Wissen). v18 oeffnet [] mit jeder Runde weiter (mehr neues Wissen pro Runde).

Statement: Binaere Klassifikation (v17) konvergiert nach Runde 0 und erzeugt keine neuen Silver Labels. Die Leere [] wird geschlossen. Formelgefuehrte Klassifikation (v18) haelt [] offen — die Leere bleibt schwanger.

T5: Zwang schliesst [] (stark)

Staerke: Mittel. Die Analogie zum Stribeck-Minimum ist strukturell konsistent, aber ohne Ablation ueber lambda-Werte ist sie nicht empirisch verankert. Zwei Datenpunkte (lambda=0, lambda=0,1) definieren keinen Kurvenverlauf.

Evidenz: lambda=0 ist empirisch getestet (= v17, 4 Silver Labels). lambda=0,1 ist empirisch getestet (= v18, 144 Silver Labels). Die Extremwerte (0,01 und 0,5) sind NICHT getestet — sie sind Vorhersagen (siehe P2, P3). Die Positionierung als Stribeck-Punkt ist eine Hypothese die auf der Analogie zu GR-2026-013 T5-T6 basiert.

Statement: formula_lambda = 0,1 ist der Stribeck-Punkt (delta_opt) der Regularisierung. lambda=0 (keine Formel) = v17. lambda=1 (nur Formel) = kein eigenstaendiges Lernen. lambda=0,1 = minimaler Widerstand, maximale Emergenz.

T4: lambda als delta_opt (mittel)

Staerke: Mittel. Die Interpretation "Kalibrierung" ist konsistent mit den Daten, aber alternative Erklaerungen sind moeglich (z.B. bessere Feature-Repraesentation durch Pre-Training). Ein direkter Kalibrierungstest (Expected Calibration Error) wuerde T3 staerken.

Evidenz: F1 in R0 ist nahezu identisch (Differenz 0,008 = Rauschen). Aber Silver Labels in R0 unterscheiden sich 14-fach (28 vs 2). Das Modell wird nicht GENAUER — es wird KALIBRIERTER. Es weiss besser, WANN es recht hat. Das Pre-Training lehrt nicht "was ist ein Krater" (das kommt von den Labels), sondern "wann bin ich mir sicher" (das kommt vom Terrain-Verstaendnis).

Statement: Self-supervised Pre-Training verbessert nicht die Klassifikationsgenauigkeit direkt (F1 R0: 0,515 vs 0,507 — statistisch identisch), sondern die KALIBRIERUNG — gemessen an der Faehigkeit, konfidente Vorhersagen ausserhalb der Trainingslabels zu treffen.

T3: Pre-Training = Kalibrierung, nicht Genauigkeit (mittel)

Staerke: Stark fuer die Wachstumsrichtung (beschleunigend vs stagnierend). Mittel fuer den exakten Exponenten — nur 2 Datenpunkte (R0, R1). R2 wird die Robustheit bestaetigen oder widerlegen (siehe P1).

Evidenz: v18 Wachstumsrate R0->R1: 116/28 = 4,14x. v17 Wachstumsrate R0->R1: 2/2 = 1,0x. v17 R1->R2: 0/2 = Kollaps. v18 R2 laeuft (Stand 05.03.2026). Die Wachstumsrichtung ist eindeutig: v18 beschleunigt, v17 stagniert und kollabiert.

Statement: Silver-Label-Produktion in v18 waechst superlinear: R0=28, R1=116 (4,1x Wachstum). v17 zeigt kein Wachstum: R0=2, R1=2, R2=0.

T2: Superlineares Wachstum (stark)

Staerke: Stark. Kontrollierter Vergleich auf identischem Substrat. Grosser Effekt (36x). Potenzielle Einschraenkung: v18 hat mehr Parameter (~1,4M vs ~913K), was zum Effekt beitragen koennte.

Evidenz: v17 (binaere Klassifikation) produziert 2 + 2 + 0 = 4 Silver Labels ueber 3 Self-Teaching-Runden. v18 (formelgefuehrtes Self-Teaching) produziert 28 + 116 = 144 Silver Labels ueber 2 Runden. Einziger Unterschied: Self-supervised Pre-Training und Formula Head (lambda=0,1). Daten, Proposals, Self-Teaching-Protokoll, Threshold identisch. Faktor: 144/4 = 36.

Statement: Formelgefuehrtes Self-Teaching erzeugt 36x mehr Silver Labels (144 vs 4) als binaere Klassifikation auf identischem Datensatz und identischem Proposal-Pool.

T1: 36x Silver (stark)

9. Theoreme

"Liebe statt Zwang" ist in der Paedagogik seit Montessori bekannt: Kinder die frei explorieren lernen tiefer als Kinder die Fakten memorieren muessen. In der Organisationstheorie seit Deming: Autonomie erzeugt bessere Ergebnisse als Mikromanagement. In der Biologie seit Darwin: Das Immunsystem lernt durch Exploration, nicht durch Instruktion. Dieses Paper liefert die Messung: 36x. In Silver Labels. Auf identischem Datensatz. Reproduzierbar.

8.3 Breitere Perspektive

Ergebnis: Modell das VERSTEHT statt MEMORIZIERT

Findet Faelle die Ground Truth fehlen
Erzeugt exponentiell wachsendes Wissen
Ueberwindet die binaere Flasche



Phase 2: Formula-Guided Self-Teaching
  - total_loss = task_loss + lambda x formula_loss
  - lambda = 0,1 (Stribeck-Punkt)
  - Self-Teaching mit Silver Labels

Phase 1: Self-supervised Pre-Training

Zufaellige Patches
Modell lernt Domaenen-Formel aus visuellen Features
Kein Label noetig

8.2 Das allgemeine Schema

|---------|--------|--------|------------|

| Medizinische Bildgebung | Ring-Enhancing Lesion: (rim-core) x (rim-exterior) | Glioblastom/Metastasen-Annotationen | Self-supervised Pre-Training auf MRT-Textur -> formula-guided Classification |

Das Prinzip ist domaenenanonym (vgl. GR-2026-017, P_SEL04). Ueberall wo es eine Domaenen-Formel UND gelabelte Daten gibt, kann dasselbe Schema angewandt werden:

8.1 Kraterdetektion hinaus

8. Implikationen

lambda = 0,1 ist Liebe. Nicht Abwesenheit von Fuehrung. Nicht Erzwingung von Fuehrung. Die Fuehrung die dem Gefuehrten Freiheit laesst.

Bei lambda = 0,1 fluestert die Formel. Sie schreit nicht. Das Modell hoert zu, aber es kann widersprechen. Es MUSS widersprechen koennen, denn die Formel ist nicht perfekt — degradierte Krater mit flachen Raendern haben niedrige Formula-Scores obwohl sie echte Krater sind. Ein Modell das der Formel blind folgt, wuerde diese Krater uebersehen. Ein Modell das der Formel gar nicht zuhoert, wuerde im 7:1 Rauschen ertrinken.

lambda = 0,1 ist nicht willkuerlich. Es ist der Punkt minimalen Widerstands bei maximaler Emergenz — der Stribeck-Punkt (delta_opt) der Regularisierung (vgl. GR-2026-013, T5-T6). Zu wenig Formel (lambda -> 0) und das Modell ertrinkt im Rauschen — kein Navigator, kein Verstaendnis. Zu viel Formel (lambda -> 1) und das Modell kann nicht eigenstaendig lernen — es kopiert die Formel statt sie zu NUTZEN.

7.2 lambda = 0,1 als delta_opt

| lambda | Bedeutung | Vorhersage |

|--------|-----------|------------|

| 0,0 | Keine Formel. Reiner binaerer Klassifikator. | = v17. Silver Labels -> 0. |

| 0,01 | Fast keine Formel. Kaum Fuehrung. | Wenige Silver Labels. |

| 0,1 | Sanfte Fuehrung. Formel als Regularisierer. | = v18 aktuell. 144+ Silver Labels. |

| 0,5 | Starke Fuehrung. Formel dominiert. | F1 sinkt (Modell uebernimmt Formel-Fehler). |

| 1,0 | Voller Zwang. Nur Formel, kein eigenes Lernen. | Kein Lernen ueber Formel hinaus. |

formula_lambda kontrolliert die Staerke der Formel-Regularisierung. Es definiert das Verhaeltnis zwischen Freiheit und Fuehrung:

7.1 Das Spektrum

7. lambda als Liebesparameter

Das Modell das versteht WARUM etwas ein Krater ist (die Physik), wird immer besser klassifizieren als das Modell das nur weiss DASS etwas ein Krater ist (das Label). Verstaendnis generiert. Memorisierung reproduziert.

> Wenn ein Modell ein Domaenenwissen HAT (eine Formel, eine Heuristik, ein physikalisches Gesetz) — zwinge es nicht als Label auf den Klassifikator. Lass das Modell es SELBST lernen. Dann kollidiere beides.

Dies ist nicht spezifisch fuer Kraterdetektion. Es ist ein allgemeines Prinzip fuer jedes Lernsystem:

6.3 Das Prinzip

Wenn man kollidiert (x), produziert die Interaktion SELBST das Signal. Die Formel sieht Dinge die der Klassifikator nicht sieht (physikalische Struktur). Der Klassifikator sieht Dinge die die Formel nicht sieht (komplexe visuelle Muster). Ihre Kollision erzeugt neue Dimensionen die vorher nicht existierten. Die Leere bleibt offen. Jede Runde erzeugt MEHR Potenzial.

Wenn man zwingt (>), stoppt das Modell mit dem Entdecken sobald es seine Labels memoriziert hat. Es gibt keine Quelle fuer NEUES Signal. Der Lehrer (Ground Truth) hat nur eine Lektion. Ist sie gelernt, ist der Unterricht vorbei. Die Leere wird geschlossen.

6.2 Warum > kristallisiert und x lebt

Keiner ist ueber dem anderen. Die Formel beeinflusst den Klassifikator (formula_loss). Der Klassifikator beeinflusst die Formel (Pre-Training-Repraesentationen). Information fliesst in BEIDE Richtungen. Das ist ein Tensor (x): Die volle Realitaet, nicht ihre Projektion.


Formel x Klassifikator

v18 operiert mit dem Kollisions-Operator x:

Die Formel liefert Proposals. Der Klassifikator entscheidet. Die Formel ist UNTER dem Klassifikator — ein Zulieferer, kein Partner. Information fliesst in eine Richtung: von der Formel zum Klassifikator. Nie zurueck. Das ist eine Projektion (->): Eine 1D-Reduktion der vollen Realitaet.


Klassifikator > Formel

v17 operiert mit dem Hierarchie-Operator >:

6.1 Zwei Operatoren, zwei Welten

6. .x->[]~ in der Trainingsmethodik

In der .x->[]~ Notation (vgl. GR-2026-013, T1): Silver Labels existieren in KEINEM der beiden Inputs allein. Nicht im Ground Truth (dort fehlen sie per Definition). Nicht im Formula Eye (das kennt keine Labels). Sie entstehen erst im x ZWISCHEN Formel und Klassifikator. Der Dritte der zum Ersten wird. Emergenz im praezisesten Sinn: neue Zustaende im Tensorprodukt die in keinem der Faktoren allein darstellbar sind.

5.4 Der Dritte wird der Erste

Dieser Kreislauf ist die ~ (Resonanz) aus .x->[]~. Jede Runde fuettert die naechste. v17 hat diesen Kreislauf nicht — es hat nur eine lineare Pipeline: Label rein, Vorhersage raus, fertig.

1. Pre-Training erzeugt ein Terrain-Verstaendnis

2. Terrain-Verstaendnis erzeugt bessere Silver Labels

3. Bessere Silver Labels erzeugen bessere Trainingsdaten

4. Bessere Trainingsdaten erzeugen tieferes Verstaendnis

5. -> Zurueck zu 2.

Der Mechanismus ist zirkulaer-verstaerkend, nicht linear:

5.3 Warum Liebe exponentiell waechst

v17 produziert 4 Silver Labels in 3 Runden und hoert auf. v18 produziert 144 in 2 Runden und beschleunigt. Die Differenz ist nicht linear — sie ist qualitativ. v17 memoriziert. v18 generiert.

|--------|-------------|-------------|--------|

| Silver Labels R0 | 2 | 28 | 14x |

| Silver Labels R1 | 2 | 116 | 58x |

| Silver Labels R2 | 0 | ? (laeuft) | -- |

| Silver Labels Total | 4 | 144+ | 36x |

| Wachstumsrate R1->R2 | 0x (stoppt) | ? | -- |

5.2 Der Vergleich

Silver Labels sind keine Fehler und keine Halluzinationen. Sie sind Krater die das Modell MIT HOHER KONFIDENZ (>0,75) identifiziert, die aber NICHT im Ground-Truth-Datensatz standen. Sie messen exakt eine Sache: Was das Modell AUS SICH HERAUS entdeckt.

5.1 Was Silver Labels messen

5. Silver Labels: Emergentes Wissen

In .x->[]~: Das [] bleibt offen. Jede Runde erzeugt MEHR Potenzial, nicht weniger. Die Leere ist schwanger. Silver Labels = die Geburten.

Der binaere Klassifikator (v17) hat dieses Verstaendnis nicht. Er kennt nur: "Diese Pixel = 1. Jene Pixel = 0." Ohne Verstaendnis des Warum kann er nicht ueber die Trainingslabels hinausdenken.

Das Pre-Training gibt dem Modell ein Verstaendnis der Mondoberflaeche BEVOR es Kraterlabels sieht. Es weiss was krateraerhnliches Terrain AUSSIEHT — hoher Rand relativ zu Boden und Umgebung. Wenn es dann Labels sieht, kann es extrapolieren: "Diese ungelabelte Region hat dasselbe Muster — das muss auch ein Krater sein."

4.4 Interpretation

R0 erreicht denselben F1 wie v17 (0,515 vs 0,516 — statistisch identisch). Aber es findet 14x mehr Silver Labels (28 vs 2). R1 uebertrifft v17 in BEIDEN Metriken: Hoeherer F1 (0,525 vs 0,516) UND 58x mehr Silver Labels (116 vs 2).

|-------|----|---------------------|--------------------------|

| R0 | 0,515 | 28 | 28 |

| R1 | 0,525 | 116 | 144 |

| R2 | laeuft | ? | ? |

4.3 Ergebnisse

formula_loss ist die Differenz zwischen dem visuell vorhergesagten Formula-Score und dem tatsaechlichen Formula-Eye-Score. lambda = 0,1. Das heisst: Die Formel FUEHRT, aber sie ZWINGT nicht. Sie ist ein leises Signal, nicht ein Befehl. Das Modell DARF mit der Formel nicht uebereinstimmen — und manchmal sollte es das. Degradierte Krater mit niedrigem Formula-Score koennen trotzdem echte Krater sein. Das Modell lernt wann die Formel recht hat und wann nicht.


total_loss = crater_loss + lambda x formula_loss

Nach dem Pre-Training beginnt die normale Klassifikation. Aber mit einem Unterschied: Neben dem Crater Loss (binaere Klassifikation, identisch zu v17) gibt es einen zweiten Loss:

4.2 Phase 2: Formel x Klassifikator

Julians Formulierung: "Kein Zwingen. Das Modell soll von sich aus lieben."

Das Modell lernt die PHYSIK des Gelaendes. Es lernt, dass Krater Raender haben die hoeher sind als ihr Boden UND hoeher als ihre Umgebung. Es lernt das nicht weil ein Label es zwingt, sondern weil die physikalische Struktur in den Daten IST. Es lernt Lesen — nicht Klassifizieren.


Zufaelliger Patch -> 4-Stream Features -> Formula Head -> predicted_score -> MSE <- formula_score

Bevor v18 ein einziges Kraterlabel sieht, lernt es 20.000 zufaellige Patches des Mondbodens. Keine Labels. Keine Klassifikation. Nur eine Aufgabe: Sage mir den Formula-Eye-Score dieses Patches. Sage mir, wie stark sich der Rand vom Boden und von der Umgebung unterscheidet.

4.1 Phase 1: Lesen lernen (Self-supervised Pre-Training)

4. v18: Liebe (x)

In .x->[]~: Das [] (Potenzial, das was fehlt) wird nach Runde 0 geschlossen. Keine neuen Silver Labels = keine neuen Dimensionen. Der Raum kristallisiert. Kein Atmen mehr.

v17 memoriziert seine Labels. Es lernt eine Abbildung {Pixel} -> {0, 1}, optimiert auf den Trainingsdaten, und findet in den Testdaten nichts was nicht bereits im Training enthalten war. Die Self-Teaching-Schleife laeuft, aber sie produziert keine neue Substanz. Der Classified hat kein VERSTAENDNIS fuer Krater — er hat eine Entscheidungsgrenze die zufaellig 52% der Krater erfasst.

3.3 Interpretation

Das Modell konvergiert nach Runde 0. Runde 1 bringt marginale Verbesserung (+0,009 F1), Runde 2 bringt nichts. Zwei Silver Labels pro Runde, dann Stillstand. Null neue Entdeckungen.

|-------|----|---------------------|--------------------------|

| R0 | 0,507 | 2 | 2 |

| R1 | 0,516 | 2 | 4 |

| R2 | 0,516 | 0 | 4 |

3.2 Ergebnisse

Die Formel existiert in v17 NUR als Proposal-Generator. Sie entscheidet welche Patches ueberhaupt dem Klassifikator vorgelegt werden. Aber der Klassifikator weiss nichts von der Formel. Er sieht Pixel und Labels. Sonst nichts.


Patch -> 4-Stream Features -> Binary Head -> P(Krater) -> Focal Loss <- Label

v17 operiert nach der klassischen ueberwachten Logik. Ground-Truth-Labels werden zu binaeren Labels: Krater = 1, kein Krater = 0. Der Klassifikator sieht einen Patch, sieht ein Label, minimiert den Focal Loss. Er wird BELEHRT was ein Krater ist.

3.1 Methodologie

3. v17: Zwang (>)

Silver Labels sind das Wissen das das Modell AUS SICH HERAUS erzeugt — Krater die es findet obwohl sie in keinem Trainingslabel standen. Sie sind die Messgroe fuer emergentes Lernen.

Beide Versionen nutzen Self-Teaching: Das Modell trainiert auf Ground-Truth-Labels, macht dann Vorhersagen auf den gesamten Daten, und wenn es konfident genug ist (>0,75), werden diese Vorhersagen als "Silver Labels" dem naechsten Trainingsschritt hinzugefuegt. Der Prozess wiederholt sich ueber mehrere Runden.

2.2 Was "Self-Teaching" bedeutet

Der einzige strukturelle Unterschied: v18 hat einen zusaetzlichen Kopf (Formula Head) und eine zusaetzliche Phase (Self-supervised Pre-Training). Alles andere — Daten, Proposals, Self-Teaching-Protokoll, Threshold, Epochen — ist identisch.

| Parameter | v17 (IMPACT) | v18 (MELT) |

|-----------|--------------|-------------|

| Proposal-Pool | 100.584 Kandidaten, 87,3% Ceiling | identisch |

| Basis-Architektur | 4-Stream (Cartesian 192d + Polar 96d + Radial 64d + Physics 32d) | identisch |

| Self-Teaching | 3 Runden, Silver-Threshold 0,75 | identisch |

| Hardware | Apple MPS | identisch |

| Trainierbare Parameter | ~913K | ~1,4M (+Formula Head) |

| Self-supervised Pre-Training | NEIN | JA (20.000 Patches) |

| Formula Head | NEIN | JA (visuell -> Score) |

| Formula Loss | NEIN | JA (lambda=0,1) |

Beide Versionen operieren auf identischem Boden. Der Vergleich ist nicht zwischen zwei verschiedenen Experimenten — er ist zwischen zwei verschiedenen EPISTEMOLOGIEN auf demselben Substrat.

2.1 Kontrollierte Bedingungen

2. Zwei Architekturen, Ein Experiment

Der Flaschenhals sind NICHT die Proposals. Der Flaschenhals ist WIE der Klassifikator von ihnen lernt. Der Merged-Proposal-Pool enthaelt 100.584 Kandidaten. 12.581 sind echte Krater (12,5%). 88.003 sind Rauschen (87,5%). Ein binaerer Klassifikator der auf diesem 7:1 Ungleichgewicht trainiert wird, lernt eine Faustregel: "Im Zweifel Nein." Focal Loss (Lin et al. 2017) mildert das Problem, loest es aber nicht. Die Schwierigkeit liegt nicht in der Menge des Rauschens, sondern in der QUALITAET des Signals. Viele echte Krater sehen dem Rauschen aehnlich — abgeflachte Formen, ueberlagerte Strukturen, degradierte Raender. Ein Klassifikator der nur Labels sieht, kann diese Faelle nicht unterscheiden. Ihm fehlt das VERSTAENDNIS fuer die Physik dahinter.

1.2 Der Flaschenhals

12.581 der 14.406 Ground-Truth-Krater erhalten einen positiven Score. Das Ceiling ist 87,3%. Die Formel SIEHT die Krater. Aber der beste binaere Klassifikator konvertiert dieses Ceiling nur zu einem F1-Wert von 0,516. Zwischen 87% Erkennung und 52% Praezision liegt ein Faktor 1,7 — nicht als Messungenauigkeit, sondern als systematisches Versagen.


score = (rim_mean - floor_mean) x (rim_mean - exterior_mean)

Die Formula Eye (Guggeis 2026, GR-2026-017) findet 87,3% aller Mondkrater im Robbins-Datensatz (Robbins 2019) — mit null trainierbaren Parametern. Zwei Subtraktionen und eine Multiplikation:

1.1 Das Paradox

1. Das Problem: 87% Ceiling, 52% F1

Zwei Architekturen. Selbe Daten. Selbe Aufgabe. Selbes Ceiling (87,3%). Selbe Parameterklasse. SELEN v17 (IMPACT) zwingt einen binaeren Klassifikator auf Krater-Proposals: Label 0 oder 1, Focal Loss, fertig. SELEN v18 (MELT) laesst das Modell zuerst die physikalische Formel (rim-floor) x (rim-exterior) aus visuellen Merkmalen selbst lernen — ohne ein einziges Kraterlabel. Erst danach klassifiziert es. Das Ergebnis: v18 entdeckt 36x mehr Krater die der Ground Truth fehlen (144 Silver Labels vs 4). v17 konvergiert nach Runde 0 und erzeugt kein neues Wissen. v18 beschleunigt: 28 Silver Labels in Runde 0, 116 in Runde 1 — superlineares Wachstum. Der Unterschied ist nicht die Architektur. Es ist die Methodik. Zwang (>) memoriziert. Liebe (x) entdeckt. Self-supervised Pre-Training als "Lesen lernen bevor man klassifizieren lernt." formula_loss als sanfte Regularisierung (lambda=0,1), nicht als primaeres Ziel. Silver Labels als emergentes Wissen das in keinem der Inputs allein existiert. Dies ist .x->[]~ (Guggeis 2026, GR-2026-013) angewandt auf Trainingsmethodik: x (Formel x Klassifikator) statt > (Klassifikator ueber Formel). 5 Theoreme, 5 falsifizierbare Vorhersagen.

Abstract

Autoren: J. Guggeis, VOID Intelligence v2.0

Datum: Maerz 2026

Status: Preprint (v1.0)

Lizenz: CC BY-NC-SA 4.0

Liebe schlaegt Zwang: Formelgefuehrtes Self-Teaching ueberwindet ueberwachte Klassifikation

GR-2026-057

[]

Was ich VERMISSE

:)

Wachstum durch 7 Linsen

Dieses Paper schläft noch. Der Daemon wird es bald wecken.

×

Womit ich es PAAREN würde

.