Die New York Times hat für alle jene, die es selbst testen wollen, ein Quiz mit fünf Beispielen zusammengestellt. Die Ergebnisse sind teilweise überraschend.
Glaubwürdige Computertexte
Interessant ist in diesem Zusammenhang, dass Nutzer bei der Beurteilung der Texte diesen oft mehr Glaubwürdigkeit zubilligen, wie eine gemeinsame Studie der Ludwig Maximilian Universität in München, der Hochschule Macromedia und des Fraunhofer Instituts für Kommunikation, Informationsverarbeitung und Ergonomie mit knapp 1.000 Teilnehmern herausfand. Die Forscher rund um Andreas Graefe zeigten zudem auch, dass Leser vor allem dann computergenerierte Texte mögen, wenn sie nicht ahnen, dass diese von einem Algorithmus erstellt wurden. Eine ähnliche Studie von Christer Clerwall von der schwedischen Karlstadt Universität – wenn auch mit weitaus geringerem Sample – kam bereits 2014 zu einem ähnlichen Ergebnis.
Die Potenziale der automatisierten Content-Erstellung
In Zeiten, wo Redaktionen personell immer weiter ausgedünnt werden, die Anforderungen der Kunden und Leser aber potenziell steigen, sind Medienunternehmen stetig auf der Suche, wie sie ihre Prozesse bei der Content-Erstellung optimieren können. Die Bandbreite der Überlegungen reicht dabei von der Unterstützung der Redakteure in der Aggregation von Daten bis zur vollautomatisierten Produktion von Texten.
Wie NLG die Verlage konkret unterstützen kann, brachte Saim Alkan, Geschäftsführer von AX Semantics, in einem Expertengespräch in der APA auf den Punkt.
Personalisierung: Inhalte können individualisiert werden
In Zukunft können durch die Kombination von strukturierter Erfassung mit Nachrichten- und Kundendaten immer besser auf den Nutzer zugeschnittene Einzeltexte generiert werden. Auf diesem Weg lassen sich bald individualisierte Nachrichten- oder E-Commerce-Seiten erstellen.
Versionierung: Eine Ausgangsbasis – viele Texte
NLG-Software ist in der Lage, auf Knopfdruck viele verschiedene Versionen eines Textes zu erstellen. Damit kann das Dilemma von „Duplicated Content“ umgangen werden, der von den Suchmaschinen abgestraft wird. Auch die Tonalität kann für das jeweilige Medium bzw. demografische Gruppen optimiert werden. Und sogar unterschiedliche Plattformen (Web, Mobile) eines Mediums könnten so mit passenden Angeboten bedient werden.
Long Tail: Angebote für die Nische
Derzeit ist es aus Kostengründen oft nicht wirtschaftlich, thematische oder lokale Nischen zu bedienen. Im Sportbereich werden im Fußball etwa nur die großen Ligen gecovert, obwohl die Daten für eine Vielzahl an Sportarten vorhanden wären. NLG ermöglicht hier eine gut aufbereitete Berichterstattung, die User-Interessen in weit größerem Ausmaß als bisher bedienen kann.
Schnelligkeit: Texte im Sekundentakt
Texte können innerhalb von wenigen Sekunden erzeugt und verschickt werden.
Internationalisierung: Sprachbarrieren überwinden
Anbieter von NLG-Software bieten ihren Kunden die Möglichkeit, ihre Inhalte in mehreren Sprachen zu erzeugen. Das Computerprogramm generiert die jeweiligen Texte direkt in der gewünschten Zielsprache ohne den Umweg über eine andere Sprache. Kostspielige Übersetzungen können so entfallen.
Selbstoptimierende Inhalte
Bezieht man performanceorientierte Daten in die NLG-Software ein, kann sich der Prozess der Textautomatisierung selbst trainieren und verbessern.
“Only with automation does it make sense to make a thousand versions of a story that are specifically targeted to individual audience members, rather than producing one story for a large audience.”
James Kotecki, AP’s Head of Communications
Limitationen der Texterstellung auf Knopfdruck
In seinem vielbeachteten “Guide to Automated Journalism” für das Tow Center of Journalism, der Anfang 2016 publiziert wurde, macht Andreas Graefe sehr anschaulich auf die Restriktionen aufmerksam, denen die automatisierte Texterstellung derzeit unterliegt. Diese decken sich im Wesentlichen mit den Erkenntnissen, die auch Konstantin Dörr, Forscher am IMPZ der Universität Zürich, im APA-Medialab Gespräch festhielt.
Datenverfügbarkeit und -qualität
Für den journalistischen Bereich werden hochqualitative, verlässliche Daten in strukturierter und maschinen-lesbarer Form benötigt. Überall dort wo die Datenqualität schlecht oder die Verfügbarkeit nicht gewährleistet ist z.B. User Generated Information, niedriger Service Level bei Open Data, können die Ergebnisse verfälscht werden.
Validierung
Algorithmen können zwar Korrelationen herstellen, aber nicht Kausalitäten erklären. Daher können nur Fakten berichtet werden, aber nicht warum bestimmte Dinge passieren. Die klassischen Tugenden des Journalismus: Einordnung und Kontextualisierung sind weiterhin dem Menschen vorbehalten.
Qualitätssicherung
ist nur schwer zu bewerkstelligen. Es kann nicht mehr jeder Text gemonitort werden. Das kommt vor allem dort zum Tragen, wo die Technologie nicht als Tool im Newsroom genutzt wird, sondern als Ersatz für den Menschen, etwa durch die massenhafte Generierung zusätzlicher Texte.
Narration
NLG ist derzeit noch am Beginn, schön geschriebene längere Texte können also noch nicht erwartet werden. Hier wird sich aber in den nächsten Jahren viel verbessern.
Die Zukunft des Journalismus: Mensch oder Maschine?
Journalistische Artikel, die sich mit dem Thema befassen, werden nicht müde zu betonen, dass der Computer einen Journalisten nicht ersetzen könne. Und auch Forscher wie Konstantin Dörr oder der Hamburger Journalistik-Professor Thomas Hestermann in diesem Interview von Meedia bestätigen das. Im besten Fall arbeiten Mensch und Maschine zusammen.
“The future of computational journalism and automation will and should be a collaborative one, where you have machines and people working together in a very conversational way.”
Alexis Llyod, NY Times R&D Lab creative director
Um automatisierte Texte erstellen zu können, benötigt man drei Komponenten: Daten, Textbausteine und eine Verknüpfung. Für die Produktion der Textbausteine sind in jedem Fall die Redakteure zuständig. Und zwar am besten Redakteure, bei den sich journalistische Fähigkeiten mit strukturiertem, mathematischem Denken paaren, wie Dörr erklärt. Sie sorgen dafür, dass unterschiedlichste Textbausteine zu ein und demselben Ergebnis erzeugt werden und Spielverläufe in einem Fußballspiel modelliert werden können. Da fallen für die Kategorie Fußball schon bis zu 300 Varianten an, wusste Helen Vogt von der norwegischen Nachrichtenagentur NTB beim letzten GEN Summit im Juni 2016 zu berichten. Einmal geschrieben können die Textbausteine vom Computer jederzeit beliebig variiert werden. Liegen dann noch gute Ankerpunkte vor z.B. historische Auffälligkeiten, ein Fokus auf bestimmte Spieler oder auf Regionalität (Spieler- und Vereinsdatenbank) können weitere Facetten erzeugt werden.