Aktivität im Forum: Zeitverlauf der Nachrichten pro Tag

Im Median werden über das ganze Forum betrachtet 171 Nachrichten pro Tag geschrieben.

Median ist ein robusterer statischer Mittelwert als der Durchschnitt.

Häufigste Views

Diese Ansicht ist gefiltert auf solche Threads, die in einem der 10 Spoiler-Foren verortet sind.

Meiste Nachrichten

Views sind eine Folge der Nachrichten, nicht die Ursache. Verändere ich die Ansicht also darauf, wie viele Nachrichten die Threads aus den Spoiler-Foren bekommen haben, sticht “Der Ilt muss sterben” so gar noch stärker hervor.

Wann ist ein Thread populär?

Aktive Popularitätswerte, die ich in den Daten beobachten kann: wie viele Nachrichten wurden verfasst und über welchen Zeitraum hinweg. Auch wenn ein Thread nicht allzu viele Nachrichten enthält, kann sich seine Popularität dadurch zeigen, dass er sich über einen langen Zeitraum hält. Die Moderatoren werden einen Grund haben, einen solchen Thread nicht zu schließen.

Ich habe mich aus folgenden Gründen für diese beiden Parameter entschieden:

Passive Aktivität: Ein Wert für views fehlt in den Daten. Dass er fehlt ist auch in Ordnung: es ist ein extrem zeitabhängiger Wert. Um ihn strukturiert auswerten zu können, hätte ein Scraper während der letzten Jahre das Forum beobachten müssen, um diesen Wert kontinuierlich aufzuzeichnen, wie ein Seismograf. Nur dann wäre so ein Wert aussagekräftig und für Untersuchungen geeignet, welche Aktionen für mehr oder weniger Aufmerksamkeit verantwortlich sein könnten.

Datenverteilung: Wo verlaufen die Grenzen von “durchschnittlich viele Nachrichten” in einem Thread und “das sind Outlier”?

Für die Aussage, wann ein Thread populär ist braucht es einen Vergleich. In diesem Fall: Ist die Menge der geschriebenen Nachrichten eines Threads viel oder wenig im Vergleich zu allen anderen Threads?

Diese Tabelle zeigt diese Grenzen auf Basis der Quantile: Quantile teilen einen Datensatz in gleich große Portionen ein und geben Antwort darauf, ab welcher Grenze Datenpunkte bspw. Ausreißer sind und welche davon durchschnittlich. Die Tabelle ist zeilenweise zu lesen.

Die Werte 0.0 und 1.0 in der Spalte q geben über die Minimal- bzw. Maximalwerte der Spalte nr_messages Auskunft.

Ein durchschnittlicher Post in dem Forumsdatensatz enthält 14 Nachrichten. Ab einer Nachrichtenanzahl von 42 Nachrichten gehört der Thread obersten 25% in der Datenverteilung. “sehr populär” Threads nenne ich solche, die mehr als 220 Nachrichten enthalten. Sie machen die obersten 5% aus (liegen im 95%-Quantil).

##   nr_messages    q
## 1           2 0.00
## 2           8 0.25
## 3          20 0.50
## 4          49 0.75
## 5         201 0.95
## 6        3004 1.00

Datenverteilung #2: Hier die Grenzen für die Lebensdauer eines Threads

Die Werte 0 und 1 in der Spalte q geben über die Minimal- bzw. Maximalwerte der Spalte life_time Auskunft.

Ein Viertel aller Werte liegt unterhalb von 4.12 Tagen. Sie sind also um einiges schneller von den Administratoren geschlossen worden, als die durchschnittlichen Threads und damit eher unpopulär.

Durchschnittliche Threads haben eine Lebensdauer von 3,5 Wochen. Zu den langlebigeren Threads werden sie ab einer Laufzeit von fast 18 Wochen. Die letzten 5% überleben 5 Jahre und darüber hinaus.

##                    life_time    q
## 1                        35s 0.00
## 2      700657s (~1.16 weeks) 0.25
## 3     2746012s (~4.54 weeks) 0.50
## 4   10641212s (~17.59 weeks) 0.75
## 5 151102146.4s (~4.79 years) 0.95
## 6   286141417s (~9.07 years) 1.00

Jetzt kommt Farbe: Threads kategorisieren entlang der Datengrenzen

Die errechneten Grenzen wende ich jetzt an auf die Tabelle mit allen Threads. Liegt ein Thread mit seiner Lebenszeit unterhalb von 356.399 Sekunden, sortiere ich ihn in die Kategorie “nicht populär” ein. Die weiteren Kategorien, die auf diese Weise entstehen, nenne ich “Unteres Mittelfeld”, “Oberes Mittelfeld”, “Populär” und die obersten 5% “sehr populär” (verstehen Sie das bitte noch als Arbeitstitel).

Die Kategorisierung für die Anzahl der Nachrichten verläuft nach dem gleichen Prinzip.

Die Kategorien bekommen von mir Farben zugewiesen. Es startet bei Blau für nicht populär, bis kräftiges Rot für “sehr populär”. Das zeigt das nächste Bild.

legende

Die Matrix: Kombination von geschriebenen Nachrichten und Lebenszeit

Das lässt nun auch auf die beiden Datenachsen anwenden. Stellen Sie sich zuvor noch vor, die Farben wären eine Art Transparentpapier. Man kann ein bisschen durch sehen und wenn zwei Farben übereinander liegen, sieht man die untere durch.

Die Farbflächen, die die Grenzen für die Lebenszeit eines Threads markieren, stehen auf der x-Achse. Die Achse zeigt wie lange Threads offen sind. Sie sehen dort, dass es tatsächlich solche gibt, die über neun Jahre alt sind und immer noch weiter laufen. Sie sehen auch, blaue Flächen sind kaum erkennbar. Die Zeiträume auf die sie sich beziehen sind so klein, dass sie grafisch kaum erkennbar sind.

Hier ist noch einmal grafisch ablesbar, was oben in den Tabellen schon anklang: das obere Mittelfeld liegt zwischen 3,5 - 17 Wochen. Aufgetragen auf die Zeitachse, wird auch dieses Feld sehr klein.

Die Grenzen der geschriebenen Nachrichten liegen in dem Raster. Diese Grenzen werden von der y-Achse bestimmt. Beim lesen des Rasters ist es wichtig, dass Sie bemerken, dass die y-Achse logarithmiert ist. Das bedeutet, der Abstand zwischen 10 und 100 ist genauso groß wie der Abstand zwischen 100 und 1000. Diese Modifizierung war notwendig, damit die große Spanne an geschriebenen Nachrichten in einem Diagramm sinnvoll abgebildet werden kann.

Welche Threads liegen in welchen Kategorien?

In dieses Raster lassen sich nun die über 9000 Threads einzeichnen. Jeder Punkt steht für einen Thread.

Wenn Sie mit der Maus darüber fahren, wird der Name des Threads sichtbar (manchmal muss man beim ersten Mal in die Fläche klicken).

Dynamik

Berechnung Dynamik

Wie schnell folgt in einem Thread eine Nachricht auf die andere? Aus diesen Einzelwerten wird für jeden Thread ein Durchschnittswert berechnet und einer Kategorie zugewiesen. So lassen sich Aussagen treffen, ob ein Thread im Vergleich zu allen anderen Threads im Forum eher eine schnellere oder langsamere Reaktionszeit hat. Die Grenzen für die Kategorien lauten wie folgt:

##         median_response_time    q
## 1                      43.5s 0.00
## 2 2595.125s (~43.25 minutes) 0.25
## 3      6074.5s (~1.69 hours) 0.50
## 4     17894.5s (~4.97 hours) 0.75
## 5   11401258s (~18.85 weeks) 1.00

Die Antwortdynamik der Threads lässt sich auch über die obere Grafik darstellen. Für jede Kategorie gibt es eigenes Feld, so dass sie sich gut untereinander vergleichen lassen.

Was man sieht: die Punktewolke der Threads, in denen schneller gewortet wird, liegt höher in der Grafik als in den folgenden Kategorien. Mit einer höhreren Antwortfrequenz gehen damit mehr Nachrichten insgesamt einher. Verwunderlich ist das nicht, aber genau deswegen wichtig: die Auswertung zeigt logische Dynamiken.

Natürlich gibt es auch in der langsamsten Kategorie Threads mit vielen Nachrichten, aber das sind dann auch diejenigen mit der längsten Laufzeit. Zusehen sind sie am roten, rechten Rand.

Zu sehen sind hier noch an die 5000 Threads. Diese Reduktion (fast Halbierung) geschieht durch mehrere Filterschritte. Es fallen solche Threads raus, die nur eine Laufzeit von 0 Sekunden haben. Um die Dynamik zu berechnen, filtere ich noch einmal und stelle die Bedingung auf, dass ein Thread mindestens 5 Nachrichten enthalten muss. Der schnellste Thread von allen mit einer Reaktionszeit von 44 Sekunden enthält 65 Nachrichten. Hier hat ein Forist eine Geschichte geschrieben und durch das aufteilen der Geschichte in mehrere Nachrichten, schnell hintereinander gepostet, die median-Geschwindigkeit enorm gehoben.

In dieser Ansicht ist die Zeitachse nun auch logarithmiert dargestellt. So ist die Datenverteilung wieder ausgeglichen und die Punktewolken liegen nicht so gequetscht im Koordinatiensystem.

Kennzahlen der Threads

Die Tabelle ist nach der Spalte median response time sortiert. Das ist die Spalte, die eine Aussage darüber macht, wie hoch die Dynamik in einem Thread ist. Angegeben ist sie in Sekunden: je kleiner der Wert, desto schneller die Anwortgeschwindigkeit.

Durch copy&paste einer thread id können in dieser App die Details eines Threads untersucht werden.

Wie schnell wird in den einzelnen Foren auf neue Antworten in den Threads reagiert?

Gibt es Foren, die besonders viele schnelle Threads beinhalten? Oder ist das immer ausgewogen?

Diese Tabelle zeigt den Anteil an schnellsten, schnellen, langsamen, langsamsten Threads in einem Forum. Durchschnittlich bzw. ausgewogen wäre ein Forum dann, wenn alle vier Kategorien bei 25% stehen würden. Weichen die Werte davon ab, ist das besonders.

User und die Ränge

## Warning in instance$preRenderHook(instance): It seems your data is too big
## for client-side DataTables. You may consider server-side processing: https://
## rstudio.github.io/DT/server.html