apa.at
blog / Freitag 25.05.18

Egon, der Fußballroboter

Dass Texte ausschließlich von Menschen geschrieben werden, ist keine Selbstverständlichkeit mehr. Wie gut sind Texte, die ein Algorithmus erzeugt? Und wie schnell kann so ein Content-Roboter gebaut werden? Mit diesen Fragen rund um Roboter-Journalismus haben wir uns näher beschäftigt.
APA

Ziel des Sprints war es, eine Lösung zu konzipieren, die automatisch Inhalte erstellt, ohne dass es auf Kundenseite zusätzlicher Ressourcen bedarf.

Was dabei raus kommt, wenn man Redakteure und Entwickler eine Woche lang ins APA-medialab sperrt, zeigt der Prototyp mit dem Arbeitstitel “Egon”. Innerhalb von fünf Tagen haben wir evaluiert, welche Daten für eine erste Umsetzung notwendig sind und wie hoch der Programmieraufwand wäre.

Die Eckpunkte:

  • Anwendungsfall: Fußball
  • Daten: regional, extern
  • Egon generiert Content (Tabelle, Spielbericht, Zusammenfassung, Vorschau, Tweet, etc.) inklusive Visualisierungen: zB Statistiken, Heatmap, Spielverlauf, …
  • Redaktionelles Service Story Alert: Egon erkennt ungewöhnliche “Datenausreißer” und alarmiert die Redaktion
  • Learning: Egon lernt von Spieldaten und menschlich generiertem Bericht

Features:

  • automatisierte Fußballspielberichte auf regionaler Ebene schreiben (Einschränkung auf Siege: 1:0, 2:0, 2:1, 3:1 – Unentschieden kennt er noch nicht!)
  • Siegesserien, Durststrecken, mehrfache Torschützen, Zuschauerzahlen, Auswärts- bzw. Heimsiege, Führungstreffer, Goldtore, Platzierungen erkennen
  • “Spitznamen” für Teams verwenden
  • Tabellen und Rundenverläufe zeichnen
  • die Redaktion auf Ungewöhnliches im Spielgeschehen hinweisen

 

Wer mit Egon spielen möchte, hier geht’s zum Prototyp (derzeit nicht für Mobilgeräte optimiert)

Egon’s Entstehungsgeschichte im Detail

Die Fragen

Am Anfang unseres Design Sprints zu diesem Thema stellten wir uns daher einmal grundsätzlichen Fragen aus Sicht der APA, etwa…

  • Können automatisierte Meldungen einen inhaltlichen Mehrwert bieten?
  • Welchen Zweck hat der automatische Content?
  • Welche Themen eignen sich?
  • Welche Ausspielkanäle eignen sich?
  • Woher kommen die Daten und in welcher Struktur?
  • Kann (automatisierte) Datenanalyse die Recherche erleichtern bzw. den redaktionellen Workflow generell unterstützen?
  • Programmieren wir einen eigenen Roboter oder greifen wir auf vorhandene Marktlösungen zu (“Make or buy”)?

Internationale Agenturen – siehe etwa die norwegische NTB oder die Associated Press – haben ihre Dienste bereits um automatisierte Texte ergänzt. Wir wollten es uns aber nicht leicht machen. “Automatisch generierter Content sollte nicht einer simplen Erhöhung des Basisdienst-Volumens dienen”, war eine Grundprämisse unserer Arbeit.

Soll heißen: Ziel ist es nicht, die tägliche Produktion aus dem Newsroom durch “Robotermeldungen” zu erhöhen. Was hätten die Kunden davon? Im worst case mehr Arbeit, weil sie mehr Content nach ihren spezifischen Bedürfnissen filtern müssen. “Den Kunden ist größtmögliche Optionenvielfalt betreffend Datenlage, Generierung, Output-Formaten und -Kanälen zu bieten”, war daher der Auftrag für den Egon-Sprint.


Ur-Egon

Und dann wäre da noch das unerlässliche Gebot für jedes Projekt in Sachen “Roboterjournalismus”: Nein, es geht nicht darum, Redakteure einzusparen. “Automatisch generierter Content sollte nicht bereits vorhandenen, ‘menschlichen’ ersetzen”, nahmen wir uns vor. Und wir meinen das ernst.

Ja, dieser Satz ist von jedem Unternehmen, das mit dem Gedanken spielt, mehr oder weniger kluge künstliche Intelligenz zu engagieren, zu hören. Er mag mitunter wie eine leere Beschwichtigungsfloskel klingen. Die Medienbranche aber hat es seit Jahren mit einer hartnäckigen Vertrauensdiskussion zu tun. Redaktionen, die den Anspruch journalistischer Qualität erheben, tun nicht nur deshalb gut daran, ihre journalistische Kernkompetenz nicht an Algorithmen auszulagern.

Wer glaubt, durch einen Textroboter beim menschlichen Know-how sparen zu können, wird ohnehin enttäuscht werden. Der Initialaufwand ist beträchtlich, und es braucht hochqualifizierte Journalisten, die der „Maschine“ das Schreiben beibringen. Griffiger formuliert:

“Ohne den Redakteur ist und bleibt der Roboter dumm.”

Sportredakteur Florian Haselmayer (vorne) und der junge Egon (hinten)


Der Weg zur Lösung

Für den Egon-Sprint holte sich das Medialab-Team deswegen auch kundige Verstärkung aus dem APA-Newsroom. Ein Kollege aus der Sportredaktion, einer aus unserem Finance-Ressort und eine Kollegin von Multimedia waren diesmal mit von der Partie. Unsere Gespräche mit externen Experten zeigten, wohin die Reise gehen könnte. Die Kunden können Dinge brauchen wie…

  • Berichte von Fußballspielen auf regionaler Ebene
  • Import eigener Daten
  • Visuelle Elemente (Grafiken, Tabellen)
  • Auswahl an Outputformaten und -Kanälen

Der Fokus auf Fußball lag auf der Hand. Sportergebnisse, Wetter, Finanzdaten… das sind die Bereiche, in denen Textautomatisierung bisher vor allem angewendet wird. Einen Roboter für Bundesliga-Spielberichte zu erfinden, wäre uns aber nicht einmal im Traum eingefallen. Warum? Ganz einfach. Das können die Redakteure besser. Sie können das Spielgeschehen ganz ohne strukturierten Datenfeed, sondern Kraft ihres Wissens in einer Tiefe schildern, die der höchsten nationalen Liga gebührt. Die Kontextualisierung des Spielverlaufs bis hin zum Wissen über die neue Haarfarbe eines Spielers, der den Ball mit seinem frisch blondierten Schopf ins Tor köpfelt, gehört dazu.

Regionale bis hin zu hyperlokalen Begegnungen aber haben ebenfalls ihr Publikum. Doch in den Newsrooms fehlt dafür die Kapazität. Ein Beispiel also für eine Content-Lücke, die von der Maschine gefüllt werden kann. In unserer Sprintwoche verabschiedeten wir uns außerdem endgültig von der Vorstellung von einem “Textroboter”, der “Meldungen” schreibt. Der Maschine ist es egal, ob die Daten zu zwei Absätzen kombiniert, eine Tabelle zeichnet, ob sie einen Tweet absetzt oder einen Live-Ticker befüllt. Man muss ihr nur sagen, was sie zu tun hat – und wie.

Die Datenfrage wiederum ist wenig überraschend der entscheidende Aspekt bei der Konzeption eines Algorithmus. Und oft mit hohen Kosten verbunden. Doch manches Medienhaus hat Daten, die der APA gar nicht zur Verfügung stehen. Warum nicht deren Verwendung ermöglichen?

 

Eigentlich alles recht einfach, oder?

Ein Roboter-Prototyp der APA geht weit über automatisch verfasste Agenturmeldungen hinaus – bzw. ist überhaupt etwas völlig anderes, das war somit klar. Zugleich warfen unsere Nerds, sorry, unsere Entwicklerprofis im APA-medialab ein paar genaue Blicke auf Anbieter für automatisierte Texterstellung. Dann war auch die technische Entscheidung gefallen: Den Prototyp würden wir selbst programmieren.

 

Die Lösung

Die Skizze (links) setzte sich im Sprint letztendlich als Vorbild für unseren Prototyp durch, was man an den vielen dicken blauen Punkten erkennen kann. Rechts ein Teil des Storyboards, auf Basis der Lösungsskizze.


Wenn Redakteure zeichnen… da sieht man gleich, welch verborgene Talente im Newsroom schlummern!

Die Eckpunkte:

  • Anwendungsfall: Fußball
  • Daten: regional, extern
  • Egon generiert Content (Tabelle, Spielbericht, Zusammenfassung, Vorschau, Tweet, etc.) inklusive Visualisierungen: zB Statistiken, Heatmap, Spielverlauf, …
  • Redaktionelles Service Story Alert: Egon erkennt ungewöhnliche “Datenausreißer” und alarmiert die Redaktion
  • Learning: Egon lernt von Spieldaten und menschlich generiertem Bericht

 

Die nächsten zwei Tage machten den Sprint zu einem der spannendsten, seit es das APA-medialab gibt. Redakteure und Entwickler saßen zusammen vor dem großen Screen und brachten Egon das Schreiben bei.

Neuland für beide Seiten – sie haben wahrscheinlich mehr gelernt als die Maschine. Am Freitag war Egon zwar noch nicht “fertig”, aber präsentabel. Er kann…

  • automatisierte Fußballspielberichte auf regionaler Ebene schreiben (Einschränkung auf Siege: 1:0, 2:0, 2:1, 3:1 – Unentschieden kennt er noch nicht!)
  • Siegesserien, Durststrecken, mehrfache Torschützen, Zuschauerzahlen, Auswärts- bzw. Heimsiege, Führungstreffer, Goldtore, Platzierungen erkennen
  • “Spitznamen” für Teams verwenden
  • Tabellen und Rundenverläufe zeichnen
  • die Redaktion auf Ungewöhnliches im Spielgeschehen hinweisen

Sich selbst etwas beizubringen, konnten wir Egon vorerst nicht beibringen.

 

Was wir von Egon gelernt haben – unsere Erkenntnisse und ein paar Thesen

Ohne Redakteur wird ein Entwickler keinen Roboterjournalisten zustande bringen. Ohne Entwickler wird ein Redakteur nur weit kommen, wenn er – nun ja, selbst auch Entwickler ist.

Ein Contentroboter ist kein Programm, das, einmal aufgesetzt, stets verlässlich die relevanten Texte ausspuckt. Die schreiberische Kunst liegt in der Variation und Anordnung der Textvorlagen. Eine Maschine muss lernen, zu gewichten und die zentrale journalistische Frage beantworten zu können: Was ist die Geschichte?

Medienhäuser brauchen immer mehr und immer granulareren Content, um immer mehr unterschiedliche Kanäle und Userinteressen zu bedienen. Automatisierungsstrategien können sie dabei unterstützen.

Einen Matchbericht schreiben, zugleich einen Tweet absetzen, einen Facebook-Anreißer verfassen, den User-Alert losschicken und einen Ticker-Flash dazu – für einen Redakteur bedingt ein Ereignis heute zahlreiche Content-Aktionen. Dass nicht jede davon der journalistischen Erfüllung dient, ist wahrscheinlich leicht vorstellbar.

Kein Content ohne Daten.

Der Mensch hat ein Gehirn, keine Schnittstelle und ist daher nicht auf formalisierte Datenstreams angewiesen, um Informationen zu erfassen und zu verarbeiten. So weit sind Maschinen noch lange nicht. Sie sind dumm und verstehen Daten nur, wenn sie strukturiert verfügbar sind. Das kann schnell teuer werden. Öffentlich zugängliche Daten sind – im internationalen Vergleich – in Österreich derzeit eher spärlich gesät. Umgekehrt kann die Maschine dem Menschenhirn aber helfen, große Datenmengen auf Auffälligkeiten zu durchsuchen. Der Nutzen von Automatisierung im Newsroom für den redaktionellen Workflow wird bisher zu wenig beachtet. In jedem Fall müssen sich Medienhäuser Strategien für die Nutzung von Daten als Basis für ihre Berichterstattung zurechtlegen.

Text ist nur ein Anfang.

Es ist faszinierend, wenn eine Maschine auf Knopfdruck sinnvolle – und sogar lesenswerte – Texte ausspuckt. Wer heute über Textroboter nachdenkt, denkt aber zu kurz. Künstliche Intelligenz in Redaktionen sollte alle Formate bedienen können.

 

Katharina Schell, 12. Februar 2018