EIG046 Die Zahllücke

avatar
Thomas Kahle

Wir erzählen die soziologisch-mathematische Geschichte dieser Grafik:

Da sieht man die über der x-Achse die Anzahl an Vorkommen der Zahl x in der OEIS. Primzahlen sind rot, Potenzen grün und stark zusammengesetzte Zahlen gelb. Der Rest ist einfach blau. Man sieht zwei Gruppen und zwischen Ihnen befindet sich die „Zahllücke“ (Sloane’s gap). Diesem Phäneomen fühlen wir auf den Zahn. Plottet man die gleiche Grafik mit aktuellen Daten, so sieht es so aus:

Und bis 20000 so:

Bis 50000 verschwindet die Zahllücke:

Und hier noch die erwähnten Links zur Folge:

Feedback gerne auf Mastodon @Eigenraum@podcasts.social, an feedback (bei) eigenpod.de oder in die Kommentarspalte auf der Episodenseite.

Automatisch generiertes Transkript (nicht geprüft)
Music.
Ja, hallo und willkommen. Ihr
habt richtig eingeschaltet. Hier ist der Eigenraum mit einer neuen Folge.
Mein Name ist Thomas Kahle und ich mache hier einen Mathematik-Podcast aus Magdeburg.
Und wenn ihr zum ersten Mal eingeschaltet habt, freut mich das natürlich.
Und wenn ihr schon seit der ersten Folge dabei seid, freut mich das auch.
Es gab heute ein neues Intro zu hören. Ich habe mal ein bisschen rumgespielt.
Für alle, die noch nicht so lange dabei sind und sich immer über das alte Intro gewundert haben.
Das sind ja Ausschnitte aus so einem Zahlensender. Da steckt eine mathematische
Spionage-Story dahinter, die ihr euch in Folge Eigenraum 23 Zahlensender nochmal anhören könnt.
Und das war jetzt für 23 Folgen das Intro. Und ich war schon immer wieder so
ein bisschen auf der Suche nach was Neuem.
Und jetzt gibt es eben dieses Intro heute mal. Und wie sich das dann weiterentwickelt,
es hängt auch ein bisschen davon ab, wie jetzt die Reaktionen darauf sind.
Und gut, heute geht es mal wieder um Zahlenfolgen und die OES,
die Online-Enzyklopädie der Integer-Sequences, also der ganzzeitigen Folgen.
Das Thema ist mir irgendwie noch nicht so richtig auserzählt,
deswegen will ich nochmal ein bisschen was dazu machen.
Und ich habe mich auch mal wieder ein bisschen ans Programmieren gemacht und
ein paar Statistiken zur OES angeschaut. Aber fangen wir erstmal am Anfang an.
Für alle, die damit noch nie was zu tun hatten, vielleicht weil sie noch nie
Eigenraum gehört haben, wo bekomme ich jetzt mal noch einen neuen Vergleich für die OIS her.
Also die OIS ist vielleicht sowas ähnliches wie die Wikipedia für Zahlen,
aber Zahlen kommen ja meistens nicht so isoliert vor, jedenfalls nicht in der
Mathematik, sondern in der Mathematik kommen die auch gerne so als Folgen vor.
Zum Beispiel die Folge der Primzahlen.
Also eine Eigenschaft, die Zahlen haben können, wird irgendwie in der Folge
der natürlichen Zahlen ausgedrückt, die diese Eigenschaft haben.
Oder aus Abzählproblemen. Für
jede natürliche Zahl n gibt es irgendwie ungerichtete Graphen mit n Ecken.
Und da kann man sich ja mal fragen, wie viele es davon gibt und das ist dann
eine Zahlenfolge, die jedem n die Anzahl mathematischer Objekte,
die irgendwie zu dem n gehören, zuordnet, wie zum Beispiel Graphen mit n-Ecken.
Und alle diese Zahlenfolgen, die die Menschheit kennt und irgendwie mal interessant
fand, die sind nun in der OIIS gespeichert, also eine riesige Datenbank.
Darin befinden sich mehr als 300.000 Folgen
Und das ist so ein Open Science-Forschungsdatenschatz für die Mathematik.
Und ich hatte es schon mal erwähnt, dass man die Folgen der OIS auch anhören kann.
Da gibt es so eine spezielle Listen-Seite und da kommt irgendwie so eine MIDI-Sequenz
raus, die zu der Folge gehört.
Wie genau dieser Algorithmus jetzt so eine Folge in MIDI übersetzt,
das habe ich noch nicht so ganz rausgefunden.
Aber ich habe mich jedenfalls mal selbst versucht an so einem Vertonungsalgorithmus.
Und was ihr am Anfang gehört habt, ist nun meine Vertonung der Primzahlen.
Und das können wir dann mal diskutieren. Also wenn das jetzt als Intro erträglicher
war, dann freue ich mich über einen netten Kommentar bei Apple Podcasts oder
auf Mastodon oder Blue Sky oder eine 5-Sterne-Bewertung nur wegen des neuen Intros.
Und wenn nicht, dann nicht eine Einsternbewertung geben, bitte nicht,
dann könnt ihr einfach mitarbeiten.
Ich poste mal parallel zu dieser Folge alle Tools, die ich entwickelt habe,
für diese Folge auf GitHub und dann könnt ihr mir da Pull-Requests senden.
Ja, da findet er dann so ein Python-Skript und ich muss sagen,
ich kenne mich mit Musik wirklich ganz wenig aus.
Also alles, was ich über MIDI gelernt habe, habe ich in den letzten 48 Stunden
gelernt, als ich versucht habe, diese Vertonung der Folgen zu machen.
Und wenn sich da jemand besser auskennt, kann sie oder er vielleicht sich ja
mal in Verbindung setzen und wir könnten die OES-Vertonung auf ein komplett neues Level heben.
Na gut, mathematische Musik ist jetzt auch nochmal so ein extra großes Thema,
um das es eigentlich heute nicht gehen soll. Das soll vielleicht mal in einer
anderen Folge passieren.
In diesem Zusammenhang kann ich euch aber nochmal den OIS-Film ans Herz legen,
den verlinke ich auch mal noch.
Als Musik hat der nämlich so eine vertonte Folge, Rekamans-Folge,
Folge 5132 und aus irgendeinem Grund ist die ziemlich gut im Internet repräsentiert,
vielleicht wegen dieses Films, der auch auf YouTube ist.
Wenn man zum Beispiel mit KI irgendwie was über OES programmieren will,
so wie ich es jetzt kürzlich getan habe, hat mir natürlich da ein bisschen von
der KI helfen lassen bei so Programmiersachen im MIDI-Bereich,
dann springt die immer gleich wieder zu der Conclusion, dass ich irgendwas über
diese Rekamans-Folge mache.
Also irgendwie muss in diesen Trainingsdaten, muss das das prototypische Beispiel
sein für eine ganzzahlige Folge, zu der man jetzt irgendwas programmieren will.
Also es war wirklich sehr überrepräsentiert in den Trainingsdaten von meinem KI-Helferlein.
So, apropos Vertonung in dem Zusammenhang habe ich auch entdeckt dass Beethovens
für Elise dieses Klavierstück, was ziemlich bekannt ist auch in der OIS ist
und zwar ist das so eine Art Reverse Engineering,
eine Folge nämlich die Folge 1, 2, 3, 4, 5, 6 also 123.456,
die ist so rückwärts engineert, dass dieser Vertonungsalgorithmus den D auf
ihrer Seite haben, wenn man ihn auf diese Folge anwendet, genau dieses für Elise ausgibt Schräg, oder?
Das wäre dann also nochmal so eine Aufgabe, wenn man jetzt meinen neuen Algorithmus
nimmt, dass man dann reverse-engineert, welche Zahlenfolge man abspeichern muss
oder reingeben muss, damit ein bestimmtes Musikstück rauskommt.
Also zum Beispiel für Elise oder das hier.
So, also ihr kennt die Regeln. Ich freue mich auf eure Beiträge.
So, jetzt kommen wir aber zum Thema. Das Thema heute ist nämlich nicht unbedingt
musikalisch, sondern eher sozial und statistisch.
Es ist ja offensichtlich, wenn immer man eine große Datenbank hat,
dann macht es irgendwie Sinn, Statistiken darüber laufen zu lassen.
Letztlich sind das ja Folgen, die die Menschheit irgendwie in der Natur gefunden
hat. Man könnte also sagen, dass es so Naturkonstanten sind.
Also die Primzahlen, die gibt es nun mal einfach.
Also ich denke nicht, dass wir Menschen uns die ausgedacht haben.
Die sind einfach da und die Primzahlfolge ist eine folgenwärtige Naturkonstante.
Und so könnte man sich jetzt auf den Standpunkt stellen, dass die OES eben aus
solchen Naturkonstanten besteht.
Und wir wollen ja vielleicht mal irgendwie sehen, ob da bestimmte Zahlen häufiger
vorkommen oder ob da irgendwelche Muster drinstecken und die Datenbasis ist relativ groß.
Also nichts wie ran an die Statistik. Auf der anderen Seite...
So richtig mit der Natur stimmt das ja auch nicht. Also vielleicht stellt sich
diese Frage in der Physik auch schon hier in der Mathematik,
aber auf jeden Fall ganz besonders.
Was wird denn überhaupt in die OES aufgenommen? Was messen wir denn überhaupt?
Also wenn ich jetzt eine Statistik machen würde über alle physikalischen Messergebnisse,
dann ist sie ja verzerrt dadurch, dass nur für bestimmte Messungen sich Menschen
gefunden haben, die diese bestimmte Größe dann auch messen wollten.
Und so ist es hier auch so ein bisschen, dass ein sozialer Faktor darin besteht,
dass nicht jede Folge die gleiche Chance hat, in der OES zu landen,
sondern Menschen eben nach ihren ganz subjektiven Eindrücken eine Auswahl treffen.
Aber wir machen jetzt trotzdem eine Statistik. Und was ist die einfachste Statistik,
die man jetzt mal laufen lassen könnte über die OES? Naja, abzählen,
wie oft welche Zahl vorkommt.
Also wenn wir diese ganze, wer ist mit wem zusammen in einer Folge,
wenn wir das alles mal weglassen, diese Korrelation, einfach nur so,
welche Zahl kommt wie oft vor.
Und diese Statistik, die wurde relativ spät, würde ich sagen,
das erste Mal betrachtet.
Also die OES gab es ja schon in Vor-Internet-Zeiten als Buch.
Und die ersten veröffentlichten Aufzeichnungen über solche Statistiken zählen,
wie oft kommt welche Zahl vor.
Die tauchen erst 2009 im Internet auf. Der Schweizer Mathematiker Philipp Giuliemetti,
der hat so einen Blog betrieben damals, ich weiß nicht, ob er es jetzt immer macht, Dr. Gulu.
Und als Dr. Gulu untersuchte er 2008, 2009 die Häufigkeit, mit der jede ganze
Zahl in der OES vorkommt.
Also eigentlich war sein Ziel, glaube ich, wenn ich das jetzt richtig rekonstruieren
kann, zu untersuchen, welches die kleinste Zahl ist, die nicht in der OIS vorkommt.
Das fand er, war ein Indiz für die am wenigsten interessante Zahl.
Oder eine Zahl, die sehr uninteressant ist, weil sie relativ klein ist,
aber sich trotzdem nicht in der OIS findete.
Und er bestimmte, dass es sich um die 8795 handelte, damals jedenfalls.
Also zum Zeitpunkt, als er diese Untersuchung gemacht hat, gab es die 8795 nicht
in der OES, in keiner Folge kam die vor und es war die kleinste solche Zahl.
Und dann hat er da so eine Theorie entwickelt, dass irgendwie die Zahlen sich
so wie Mineralisierung in Gesteinen verhalten und sich dazu absetzen in den
Zahlenfolgen in der OES.
Da gehe ich jetzt mal nicht weiter drauf ein, das schien mir,
keine Ahnung, schien mir jetzt nicht mit statistischen Methoden so gut untersuchbar,
aber er gilt jedenfalls als der Entdecker der heute hier beschriebenen Effekte
und das sei ihm gegönnt und als Referenz,
als Kulturreferenz verlinke ich euch nochmal ein Kommentar von ihm auf Math
Overflow in dem Thread Examples of Unexpected Mathematical Images,
also einem großen Sammler-Thread, in dem es um.
Unerwartete mathematische Grafiken geht und da postet er Bis zum nächsten Mal.
Seine Grafik, eine Grafik, über die wir auch gleich noch reden,
die mit dieser Anzahl zu tun hat.
Also zu interessanten Zahlen gibt es sicherlich auch nochmal viel zu sagen.
Ich hatte ja auch mal eine Folge Lieblingszahlen und es gibt auch einige Artikel dazu.
Zum Beispiel einen französischen, den ich gefunden habe, Mill Collections de Nombre,
also 1000 Zahlensammlung von De La Haye, veröffentlicht in einem Journal namens
Pour la Science und da untersucht er die Faszination für bestimmte Zahlen und
Gründe, warum bestimmte Zahlen als bemerkenswert gelten.
Und es gab in der Geschichte auch immer mal wieder so Zahlenlexika.
Also einfach wie so ein Werk, wo besondere Zahlen besprochen werden.
Ein englischsprachiges, davon habe ich hier auch irgendwo bei mir rumliegen,
das Penguin Dictionary of Curious and Interesting Numbers von David Graham Wells.
Und ja, das ist ein Nachschlagewerk für, sag ich mal, Hobby,
Mathematik und Zahlentheorie, was in den 80ern in Großbritannien,
glaube ich, erstmalig erschienen ist.
Ja, also solche Werke gibt es, aber wir nehmen jetzt als Datengrundlage nicht
mehr diese gedruckten Werke, sondern die OIS, weil es da viel mehr Zahlen drin
gibt. Also, zurück zur OIS und unserer ersten Statistik.
Unsere erste Statistik sollte ja sein, einfach die Anzahl, wie oft kommt eine
Zahl vor, nennen wir das mal H von N, H wie Häufigkeit.
H von N ist also die Häufigkeit, mit der eine Zahl N in der OIS vorkommt.
Genommen über alle Zahlenfolgen, die sich darin befinden.
Und das sind über 380.000 zum Zeitpunkt meiner Aufnahme hier.
Also ich habe mir mal die OIS runtergeladen. Die gibt es komplett auf GitHub.
Und da könnt ihr euch diese Statistiken selbst erstellen oder nachvollziehen, was ich gemacht habe.
Ich veröffentliche auch alle Skripte, die jetzt hier mit dieser Statistikauswertung zu tun haben.
Auch in dem GitHub-Repository, von dem ich vorhin schon mal gesprochen habe.
So, mit den Daten von Ende Februar 2025 hatte man etwas mehr als 380.000 Folgen
und es ist zu beachten, dass eine Zahl, wie zum Beispiel die 1 oder so,
jetzt mehrfach in der gleichen Folge vorkommen kann und vorkommen wird.
Und da sind wir schon mal so ein bisschen bei einer Definitionsfrage.
Wie definiert man denn eigentlich diese Häufigkeit, mit der eine Zahl vorkommt?
Also, soweit ich das verstanden habe, nutzte Julie Matti und ich auch die komplett
gleiche naive Sichtweise, die so ein bisschen aus dem Datenformat abgeleitet
ist, in dem die OIS abgespeichert ist.
Also wenn ihr auf so einer Seite einer Folge seid auf der OES,
dann seht ihr immer erst mal so drei Zeilen von Zahlen, die zu der Folge gehören.
Und zwar immer maximal drei Zeilen, wenn genug Zahlen bekannt sind.
Also wenn ihr eine Folge habt, die sehr große Zahlen enthält,
die ziemlich lang, ziemlich viel Platz auf so einer Zeile brauchen,
dann seht ihr auch entsprechend weniger Folgenglieder.
Weil jedes Einzelne mehr Platz verbraucht.
Und für alle Statistiken, die ich hier mache, und das wurde historisch eben
auch so gemacht, nutze ich einfach das, was in diesen ersten drei Zeilen steht.
Und wenn ihr so einen Datenexport der OIS euch holt von GitHub,
dann seht ihr dort auch diesen Anfang der Folge.
Und das hat einen entscheidenden Vorteil, dass jede Folge dadurch in meinem
Modell jetzt oder für meine Statistik erstmal eine endliche Folge ist.
Nämlich, ich sehe immer nur den Anfang von jeder Folge, mit gar nicht so vielen Zahlen.
Und das ist auch wichtig, denn in der OIS gibt es nämlich auch konstante Folgen.
Nämlich, direkt die Folge 12, A000012, ist die konstante Folge,
die nur aus Einsen besteht.
Also, da ist alles Eins, außer der Null. Na gut, das ist sowieso eine witzige Folge.
Es gibt ja zu jeder Folge so Erklärungen, was die Folge ist.
Und zum Beispiel alles konstant 1 ist zum Beispiel die Anzahl verschiedener
Möglichkeiten, eine Zahl n als Produkt von Primzahlen zu schreiben.
Ja, die geneigten Hörerinnen und Hörer wissen, in Folge Eigenraum 14,
Definitionssache, haben wir schon darüber gesprochen, dass es,
weil 1 keine Primzahl ist,
genau eine Möglichkeit gibt, eine Zahl als Produkt von Primzahlen zu schreiben
und deswegen ist, wenn ich jeder Zahl n die Anzahl Möglichkeiten zuordne,
wie sie als Produkt von Primzahlen geschrieben werden kann, kriege ich jedes
Mal 1, also die konstante Folge 1.
Also sind die jedenfalls ziemlich viele Einsen.
Und wenn ich jetzt von jeder Folge, die in OIS alle bekannten Folgenglieder
benutzen würde, dann hätte ich schon mal unendlich viele Einsen und meine Häufigkeitsfunktion
wäre nicht so gut definiert.
Oder hätte dann eben den Wert unendlich.
Wahrscheinlich hätte dann die Häufungsfunktion überhaupt kein Informationsgehalt
mehr, weil es viele Zahlen gibt, die a priori unendlich oft vorkommen.
Also diese vielen Einsen würden meine Statistik ganz massiv beeinflussen und
deswegen nehme ich eben diese drei Zeilen, die abgedruckt sind.
Da sind immer noch genug Einsen drin, aber ihr könnt jetzt eure eigenen Schlüsse ziehen.
Gemacht wird es jetzt jedenfalls auf Basis dieser drei Zeilen,
die ihr auch im Web seht, wenn ihr zu einer Folge geht. Also was ist denn jetzt
mal der Wert von 1, h von 1? Wie oft kommt die 1 vor?
Und nach meiner Statistik von Ende Februar 2025 kommt die 1 1.435.016 mal vor.
Das bedeutet also bei 381.000 Knipsfolgen im Schnitt 3-4 mal pro Folge.
Also die 1 ist relativ häufig, ist sehr häufig. Die minus 1 hingegen kommt zum
Beispiel nur 75.584 mal vor.
Die 2 immerhin noch 781.000 Knips mal und so gibt es dann da eine Verteilung,
die man jetzt mit diesem Python-Skript sich ausdrucken kann.
Ja, da kann man auch so ein paar andere Statistiken machen, die wirklich kleinste
vorkommende Zahl, also wenn man die negativen Zahlen noch mitnimmt.
Dann kann man ja mal schauen, was die kleinste Zahl ist, also die negative Zahl
mit dem größten Betrag, die in der OES vorkommt und die ist in Folge 152.883
enthalten. Die Folge ist auch lustig.
Die Folge lautet, ich sage euch jetzt mal nicht die Definition oder die Formel,
aber die Folge lautet 1, 0, minus 1, minus 2, 3, 118.
Und jetzt müsst ihr denken, ihr seid in so einem Schulrätsel oder Mathe-Olimpiade.
Wie geht die Folge weiter?
Und die Folge geht weiter mit der kleinsten Zahl, die in OIS vorkommt.
Minus 19, Gazzontillarden, Blub, also so eine Zahl, die eine komplette Zeile
braucht in dieser Darstellung auf der Webseite.
Okay, das wäre richtig gewesen. Hättet ihr es gefunden nach dem Anfang der Folge? Ich jedenfalls nicht.
Dann kann man sich natürlich noch diese Juli-Metti-Frage stellen.
Nach der kleinsten positiven Zahl, die nicht vorkommt.
Meiner Analyse nach ist das aktuell die 376.214. Also das ist die aktuell langweiligste Zahl.
Aber diese Beobachtung basiert natürlich auch auf der entscheidenden technischen
Annahme, dass wir von Folgen immer nur die ersten drei Zeilen betrachten.
Natürlich ist die Folge der natürlichen Zahlen auch in OES. Die Folge 27 ist das.
Und ohne dieses Abschneiden würde damit natürlich jede Zahl in der OES vorkommen.
Aber bei der Folge der natürlichen Zahlen gehen die ersten drei Zeilen eben nur bis zur 77.
Also die kleinste Zahl in diesem Sinne ist die 376.214.
Frühere Rekorde waren 8.795, 9.935, 11.147 und noch andere.
Also diese Zahl ist ziemlich gewachsen. Mit der OES, mit immer mehr Folgen,
die dazukommen, werden natürlich auch die Lücken gefüllt.
Es bericht einen natürlich irgendwie auf die Idee, die Folge zu betrachten der
Zahlen, die mal irgendwann die kleinste Zahl waren, die nicht in OIS vorkommt.
Und die Folge wird dann aber immer weitergeschrieben, automatisch,
also zu jedem Zeitpunkt schreibt die sich ja selbst vor.
Weil wenn ich die ersten Zahlen da reingeschrieben habe, dann schreibe ich ja
irgendwann auch die 376.214 da rein und dann ist sie ja in OIS und dann muss
ich die nächste kleinste Zahl finden und wupp, sind alle Zahlen weg.
Und was aber der Wert davon ist, also ich denke irgendwie diese Folge hat keine
guten Chancen aufgenommen zu werden, da kommt dann wieder diese soziale Sortierung dazu.
Also mein Skript gibt euch jedenfalls diese ganzen Statistiken als CSV-Datei
aus und dann könnt ihr euch das anschauen.
So, wir wollten ja also jetzt zur Verteilung, zu diesen Häufigkeiten,
also diese Funktion h von n. Was stellen wir uns da eigentlich vor?
Wie verläuft diese Funktion? Was ist das für eine Kurve?
Naja, also die 1 kommt ja schon ziemlich oft vor, mehr als 3 mal pro Folge im Mittel.
Und die 2 wahrscheinlich ein bisschen weniger, die 3 noch ein bisschen weniger.
Also irgendwie denkt man schon, dass die kleinen Zahlen häufiger vorkommen,
oder? Und das ist auch so.
Die Kurve ist im Allgemeinen, wenn man so schief hinguckt, fallend,
auch relativ schnell fallend.
Und je größer die Zahl, desto seltener kommt sie vor. Riesengroße Zahlen werden
eben nur in sehr seltenen Fällen vorkommen.
Und das wird durch diesen Cut-Off nach den ersten drei Zeilen eben noch verstärkt.
Aber wie genau soll der Abfall dieser Kurve aussehen? Und ja,
Julie Matty und mein Skript haben sich dann mal überlegt, die Kurve irgendwie
so als Graph darzustellen.
Also da bietet sich so eine halb logarithmische Skala an, wo man über der Zahl
n den Logarithmus von h von n darstellt, denn 1 kommt wirklich sehr viel häufiger
vor als 10 und diese dann wieder sehr viel häufiger als 100 und so weiter.
Also h von 100 ist zum Beispiel nur noch so 20.000, wenn wir ja 1,4 Millionen hatten bei der 1.
So, und heraus kam ein damals bis heute viel diskutiertes Histogramm,
was ihr auch als Kapitelbild oder auf der Episodenseite sehen könnt.
Und er hat nämlich die Funktion h von n bis 10.000 geplottet,
bis n gleich 10.000 und dann etwas entdeckt.
Die ganzen Zahlen lassen sich nämlich in zwei Gruppen einteilen,
zwischen denen eine gewisse Lücke besteht.
Also man sieht den Verlauf der Kurve, den Abfall von h von n oder log h von n.
Und es gibt eine Gruppe von Zahlen, die über dieser Abfallkurve liegen und eine
Gruppe, die eher da drunter liegt.
Und dazwischen liegen irgendwie wenige Zahlen.
Und für Julian Matty war es eben klar, dass es interessante Zahlen gibt.
Das sind die, die überrepräsentiert sind und nicht so interessante Zahlen,
die weniger vorkommen. Darauf war er aus. Also das war ja sein Ziel, sein Forschungsziel.
Und das soll jetzt unabhängig von der Größe sein.
Klar, eine große Zahl kommt weniger häufig vor als eine kleine Zahl,
aber die entscheidende Größe ist eben, wie viel sie über ihrer Erwartung liegt,
der von der Größe unabhängigen Interessantheit.
Wir Menschen sind eben fasziniert von Zahlen, wie Primzahlen oder reinen Potenzen
oder so und das sollte man hier sehen.
Bestimmte Zahlen faszinieren uns und die kommen irgendwie mehr vor und andere
Zahlen empfinden wir als langweilig oder gewöhnlich.
Und deswegen hat er den Plot eingefärbt und die traditionellen Farben sind Primzahlen
sind rot, reine Potenzen von
Zahlen sind grün und dann macht er noch hoch zusammengesetzte Zahlen gelb.
Alle anderen Zahlen sind blau. Und diese hoch zusammengesetzten Zahlen,
übrigens auch eine Folge in OIS, die sind die, die viele verschiedene Primfaktoren haben.
Und zwar mehr Primfaktoren als alle Zahlen, die kleiner sind.
Ramanujan hat einmal was darüber erforscht. Ja, und diese Grafik,
nachdem die OIS jetzt seit 2008, 2009 so stark angewachsen ist,
die können wir ja jetzt nochmal reproduzieren.
Wir können die für größere Intervalle betrachten, wir müssen nicht nur bis n
gleich 10.000 gehen und das machen wir jetzt mal.
Ich denke übrigens, dass Judy Matty damals auch Matplotlib verwendet hat,
denn irgendwie, wenn ich diese Standardeinstellungen in Matplotlib nehme,
so wie es mein Skript tut,
dann sieht das eigentlich ziemlich ähnlich aus, schon der Grafik,
so vom Stil her, so vom Plotstil und wie alles aussieht, sieht es dem schon
ziemlich ähnlich, was da veröffentlicht wurde.
Er nannte die Lücke, die er entdeckt hat, die auch visuell gut repräsentiert
ist, in dieser einen Grafik, die er.
Veröffentlicht hat und nannte sie die Sloan-Lücke nach dem Schöpfer der OIS, Neil Sloan.
Aber was man so hört oder im Wiki der OIS liest, war Sloan jetzt an dieser Art
von Statistik nicht so besonders interessiert und deshalb schlage ich jetzt einen neuen Namen vor.
Ich nenne diese Lücke ab jetzt die Zahllücke.
Also das ist die Zahllücke. Es gibt interessante Zahlen und uninteressante Zahlen
und zwischen den interessanten und den interessanten Zahlen befindet sich eventuell,
wenn wir das nachweisen können, die Zahllücke.
Aber gibt es diesen Effekt eigentlich wirklich? Die Datenbasis ist ja jetzt
schon ein bisschen stärker. Seit 2008, 2009 sind viele Folgen dazugekommen.
Und wenn man diese Statistiken jetzt alle wiederholt, und ich habe da doch einige
Zeit investiert, damit rumzuprobieren, und versucht, sich so genau wie möglich
an den alten Plot zu halten, da fällt erst mal auf, dass die regulären Zahlen,
also die blauen, die nicht so interessanten,
die nicht prim oder hoch zusammengesetzt sind,
oder Potenzen von kleineren, Die sind in der Originalgrafik mit kleineren Punkten gezeichnet.
Und so diesen visuellen Eindruck einer Wolke, den kriegt man natürlich,
wenn man das Weiß, auf dem der Plot ist, nicht mehr sehen kann.
Und dadurch, dass er die Primzahlen, die interessanten Zahlen größer gemacht
hat, mit größeren Punkten geplottet hat, reicht ihm dort eine geringere Dichte
an Punkten, um den gleichen Wolkigkeits- oder Clustereffekt zu erzielen.
Also es ist schon mal so ein kleines Nudging in eine gewisse Richtung. Zeichnet man die.
Primzahlen, hoch zusammengezetzten Zahlen, auch mit den kleinen Punkten,
dann sieht es schon eher danach aus, als ob es irgendwie so eine Art Bodensatz
gibt, aus dem irgendwie so Dampf nach oben aufsteigt.
Aber der Dampf, der kondensiert noch nicht so richtig, da entsteht noch nicht wieder eine neue Wolke.
Also, wenn man jetzt mal so eine Dampfdrucktheorie, der Mineralisierungstheorie
von früher entgegensetzt, kann man da sicherlich noch ein bisschen drüber reden,
aber ich lasse das jetzt mal.
Ja, es ist irgendwie schwer, diese Dinge zu beschreiben, deswegen bitte ich
euch, die Grafiken anzuschauen, zum Beispiel auf der Folgenseite oder in den
Kapitelbildern und ihr plottet sie euch bestimmt auch mal selbst und kommt dann
zu euren eigenen Schlüssen.
Aber ich will noch mal ein bisschen über diese eventuelle mathematische Vorhersage
so einer Lücke spekulieren.
Also kann man jetzt irgendwie, ich meine es ist so viel Empirie da drin,
aber kann man irgendwie so irgendeine mathematische Theorie von der Verteilung
dieser Häufigkeiten machen?
Und es gibt tatsächlich eine Theorie, zumindest zum Abfall der Kurve.
Zu der Lücke kommen wir dann gleich nochmal.
Also man kann ja mal einfach interpolieren, wie diese Kurve aussehen soll.
Also welche Formel diese Abfallkurve hat, h von n.
Aber welche Form soll man, also wenn man jetzt fitten will, welche Form des
Abfalls soll man dazu annehmen? Und dazu gab es ein Paper von Nicolas Gauvry,
Jean-Paul Delahaye und Hector Ziniel aus dem Jahr 2011.
Da haben sie den Artikel Sloan's Gap, Mathematical and Social Factors Explain
the Distribution of Numbers in the OEIS auf dem Archive gepostet.
Ist natürlich verlinkt in den Shownotes.
Und dann geben sie folgende ganz interessante Theorie an. Die Häufigkeit soll
wie ein Potenzgesetz abfallen.
Also h von n soll sich ungefähr so verhalten wie Konstante mal n hoch minus eine Zahl.
Oder Konstante geteilt durch n hoch eine Zahl.
Das nennt man einen Potenzgesetzabfall. Das ist ein etwas langsamerer Abfall,
oder nicht etwas, das ist ein langsamerer Abfall als ein exponentieller Abfall zum Beispiel.
Also in der Physik ist sowas, glaube ich, ganz beliebt, weil zum Beispiel die
Stärke des Gravitationsfelds oder des elektromagnetischen Felds eben auch mit
so einem Potenzgesetz abfällt im Abstand von der Quelle.
Und da hat man so eine Skaleninvarianz, also wenn man zum Beispiel das Koordinatensystem
umskaliert, was ja in der Physik immer wichtig ist, dann ändert sich nicht das
Naturgesetz, sondern ändern sich nur die Konstanten.
Und das macht es eben attraktiv für solche Modellierungen. Und empirisch ist das interessant,
wenn man zum Beispiel Dateigrößen im Internet sich anschaut,
also man beobachtet in vielen Statistiken, die man einfach so aufnimmt,
wo Menschen irgendwas tun,
beobachtet man auch diesen Abfall.
Wenn man sich zum Beispiel die eben erwähnten Dateigrößen im Internet anschaut,
wie oft kommt eine Datei vor, deren Größe zwischen 1 Kilobyte und 2 Kilobyte
liegt und wie viel eine, deren zwischen 2 Kilobyte und 4 Kilobyte liegt und
so weiter, dann hat man auch bei diesen Häufigkeiten von Dateien so einen Abfall.
Also kleine Dateien sind häufiger, große Dateien sind seltener und da hat man
auch so einen Power-Law-Abfall, also so ein Potenzgesetz-Abfall dieser Häufigkeiten.
Also irgendwie steckt da was dahinter, wie unser menschliches Verhalten modelliert
wird oder physikalisches Verhalten so modelliert wird.
Und die haben auch sich da eine Theorie überlegt, nämlich mit der algorithmischen
Komplexität von Zahlen.
Das ist so ein bisschen abgefahren, also ihr könnt jetzt entweder eine Minute
skippen oder kurz zuhören.
Also wenn man eine universelle Turing-Maschine betrachtet, also einfach irgendein
Computer, und man lässt sie mit zufälligen Programmen laufen und schaut mal, was sie so ausgibt,
was ist dann die Wahrscheinlichkeit, dass die eine bestimmte Zahlenfolge oder
eine bestimmte Zahl ausgibt? oder die Wahrscheinlichkeit überhaupt einer Ausgabe.
Und die Wahrscheinlichkeit dieser Ausgabe, die hängt von der algorithmischen
Komplexität der Ausgabe ab, dieser Kolmogorov-Komplexität, über die wir auch
in Eigenraum 40, das ist doch kein Zufall, schon mal gesprochen haben.
Also diese Komplexität misst ja, was das kürzeste oder einfachste Programm ist,
was die entsprechende Ausgabe produziert.
Und wenn es einfache Programme gibt, dann ist es häufiger, dass diese Ausgabe kommt.
Und zufällig, komplett zufällige Zahlen sind eben schwer zu produzieren.
Also die Wahrscheinlichkeit, einfach so eine Zahl auszugeben,
die fällt dann exponentiell ab mit der Komplexität der Zahl,
das ist jetzt wirklich exponentiell,
aber die Komplexität der Zahl ist wiederum logarithmisch in ihrer Länge und
so wird aus e hoch minus logarithmisch dann ein polynomieller Abfall.
Das war jetzt so meine ganz kurze Erklärung.
Und in ihrem Paper bestimmen sie dann 2011 mit den Daten von damals diese logarithmische Regression,
als dass der Logarithmus von h von n, der ist ungefähr so wie minus 1,33 mal
Logarithmus von n plus eine Konstante, die ist 14 mit einem r² von ungefähr 0.81.
Und ich habe das mit heutiger Datenbasis nochmal nachgerechnet.
Ich komme auf minus 1,298 mal Logarithmus von n plus 15 mit einem etwas höheren r² von 87.
Also dieser r-Wert, der höhere r-Wert ist besser.
Also mit mehr Daten ist es besser, weil mehr der Varianz der Punkte erklärt
wird. Die Punkte liegen also etwas besser auf der Kurve heutzutage.
Was vielleicht ein bisschen dafür spricht, dass die Lücke sich schließt,
aber naja, da kann man viel drüber spekulieren.
Also wir haben auf jeden Fall mehr Daten und die Theorie, dass es sich um Potenzgesetzabfall
handelt, wird immer stärker unterstützt durch die Daten.
Ja, für die Definition der Lücke versuchen sie einfach einen empirischen Ansatz,
um überhaupt erstmal die Lücke zu messbar zu machen oder zu sagen,
was die ist. Und der beruht einfach auf Perzentilen.
Also sie nehmen so einen Intervall an,
in dem sich so eine Zahl h von n oder log h von n befinden soll und dann das
obere Drittel oder die oberen 18%, das sind dann die interessanten Zahlen.
Also das haben sie komplett empirisch da angefittet.
Und dann schauen sie, was da für Zahlen da oben dabei sind und wie man es sich
schon denkt, kommen sie dann eben auf die Ergebnisse,
die auch schon in der ursprünglichen Grafik eingezeichnet wurden,
also Primzahlen, Zahlen, die viele Primfaktoren haben und Potenzen sind da besonders häufig.
Und die Interpretation ist dann irgendwie, dass diese Zahlen oft vorkommen,
weil sie viele Eigenschaften haben und diese Eigenschaften, die Zahlen haben
können, die bilden wir als Menschen irgendwie in der OIS ab.
Dann machen sie noch so ein paar Simulationsstudien unter verschiedenen Modellen,
die nicht zu einer Lücke führen.
Und deswegen erklären sie die Lücke dann zu einem ungeklärten sozialen Phänomen
und haben noch ein paar Ansätze.
So und jetzt, also ich frage mich da, irgendwie frage ich mich,
ob es diese Lücke wirklich gibt.
Ich möchte jetzt noch kein abschließendes Urteil mir erlauben,
aber so ein paar Beobachtungen, die habe ich schon gemacht in meinen Experimenten,
die ich jetzt gemacht habe.
Also ich habe ja schon meinen Reproduktions-Plot neulich auch auf Macedon und Blue Sky gepostet.
Der geht bis 10.000, aber mit den aktuellen Daten.
Also das ist eigentlich die gleiche Art von Plot, die Julie Matti gemacht hat
2009, mit den gleichen Farben, auch in Matplotlib, auch bis 10.000,
aber mit den aktuellen Daten.
Und ich finde, die Lücke ist dort schon weniger prägnant als in dem Originalplot.
Also sie füllt sich. Es entsteht mehr dieser Eindruck von einem Dampf,
der aufsteigt aus dem See der gewöhnlichen Zahlen.
Und was man jetzt natürlich machen kann, wir haben jetzt viel mehr Daten,
also man kann jetzt auch mal bis 20.000 plotten oder bis 50.000 und tut man das.
Rückt alles natürlich etwas enger zusammen und die Lücke wird mehr und mehr unsichtbar.
Also ich könnte mir vorstellen, dass diese Zahllücke irgendwie ein Small-Data-Effekt
war oder ein Small-Data-Effekt ist.
Er ist jedenfalls sensitiv gegenüber genau dem Plotten nur bis 10.000 und der Datenbasis von 2009.
Und meine Theorie ist, die Zahllücke schließt sich oder meine empirische Beobachtung.
Also ich trage es jetzt mal hier als offizielle Hypothese aus dem Eigenraum vor.
Die Zahllücke schließt sich mit der Zeit und wenn wir in 50 Jahren oder so nochmal
darüber reden, dann merkt euch, wo ihr es zuerst gehört habt.
Die Zahllücke schließt sich.
So, aber ich mache jetzt langsam mal Schluss hier. Habe schon wieder ganz schön lange aufgenommen.
Ich lade euch Statistik-Nerdinnen und Nerds ein, eure eigenen Analysen zu machen.
Die Daten sind im Netz, ein paar Start-Skripte sind im Netz.
Und ihr könntet ja mal einen Classifier bauen, der irgendwie von zwei Populationen
ausgeht, die jeweils ihr eigenes Power-Law haben, die interessanten und die
uninteressanten zahlen und das mal klassifizieren und weiter untersuchen, ob es diese Lücke gibt.
Also wie so einen Hypothesentest machen, zwei Populationen gegen eine Population
oder gibt es noch mehr Populationen und ja, wenn ihr euch mit Statistik auskennt,
dann macht das doch mal und ich würde mich super freuen,
wenn ihr mir dazu was auf Mastodon schreibt unter eigenraum.podcasts.social
oder mich sonst irgendwie kontaktiert und ja.
Wünsche ich euch viel Spaß dabei und bin gespannt auf kommende Analysen oder Musikbeiträge.
Macht's gut und bis zum nächsten Mal. Ciao.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

This site uses Akismet to reduce spam. Learn how your comment data is processed.