apa.at
blog / Donnerstag 23.03.17

Wenn Algo­rith­men schrei­ben lernen

Auto­ma­ti­sier­te Tex­ter­stel­lung ist im E‑Com­mer­ce-Bereich längst an der Tages­ord­nung. Bei hun­der­ten neu­er Pro­duk­te, die täg­lich in gro­ßen Online-Shops dazu­kom­men, liegt es nahe, bei der Pro­duk­ti­on von Pro­dukt­be­schrei­bun­gen auf „Kol­le­ge Com­pu­ter” zu set­zen. Doch auch Medi­en­un­ter­neh­men ent­de­cken das Poten­zi­al der Tech­no­lo­gie im Rah­men von Pilot­pro­jek­ten immer mehr für sich. 

Ein The­ma – vie­le Begriffe

Robo­ter­jour­na­lis­mus, algo­rith­mi­scher Jour­na­lis­mus oder auto­ma­ti­sier­ter Jour­na­lis­mus – wer sich mit dem The­ma befasst, wird unter ver­schie­de­nen Schlag­wor­ten fün­dig. Immer jedoch ist jene Art von Nach­rich­ten­pro­duk­ti­on gemeint, bei der Algo­rith­men aus Daten­ban­ken und ‑kolon­nen fer­ti­ge Tex­te erstel­len. Es liegt auf der Hand, dass damit vor allem Fak­ten basier­ter Jour­na­lis­mus for­ciert wer­den kann, bei dem die Tex­ter­stel­lung wie­der­holt einem bestimm­ten Mus­ter folgt und in gro­ßer Men­ge ver­fasst wer­den muss. Des­halb set­zen welt­weit gese­hen auch immer mehr Medi­en­un­ter­neh­men für ihre Finanz‑, Sport- und Chronik­be­richt­erstat­tung auf die Tech­no­lo­gie, die als Natu­ral Lan­guage Genera­ti­on (NLG) bezeich­net wird und eine Sub­do­main von Arti­fi­cal Intel­li­gence ist.

Dass sich com­pu­ter­ge­ne­rier­te Tex­te in die­sen Gen­res kaum mehr von jour­na­lis­tisch geschrie­be­nen unter­schei­den müs­sen, zeigt die­ses Bei­spiel, das uns von AX Seman­ti­cs zur Ver­fü­gung gestellt wurde.

Beispiel: Automatische Texterstellung

Die New York Times hat für alle jene, die es selbst tes­ten wol­len, ein Quiz mit fünf Bei­spie­len zusam­men­ge­stellt. Die Ergeb­nis­se sind teil­wei­se überraschend.

Glaub­wür­di­ge Computertexte

Inter­es­sant ist in die­sem Zusam­men­hang, dass Nut­zer bei der Beur­tei­lung der Tex­te die­sen oft mehr Glaub­wür­dig­keit zubil­li­gen, wie eine gemein­sa­me Stu­die der Lud­wig Maxi­mi­li­an Uni­ver­si­tät in Mün­chen, der Hoch­schu­le Macro­me­dia und des Fraun­ho­fer Insti­tuts für Kom­mu­ni­ka­ti­on, Infor­ma­ti­ons­ver­ar­bei­tung und Ergo­no­mie mit knapp 1.000 Teil­neh­mern her­aus­fand. Die For­scher rund um Andre­as Grae­fe zeig­ten zudem auch, dass Leser vor allem dann com­pu­ter­ge­ne­rier­te Tex­te mögen, wenn sie nicht ahnen, dass die­se von einem Algo­rith­mus erstellt wur­den. Eine ähn­li­che Stu­die von Chris­ter Cler­wall von der schwe­di­schen Karl­stadt Uni­ver­si­tät – wenn auch mit weit­aus gerin­ge­rem Sam­ple – kam bereits 2014 zu einem ähn­li­chen Ergebnis.

Die Poten­zia­le der Technologie

In Zei­ten, wo Redak­tio­nen per­so­nell immer wei­ter aus­ge­dünnt wer­den, die Anfor­de­run­gen der Kun­den und Leser aber poten­zi­ell stei­gen, sind Medi­en­un­ter­neh­men ste­tig auf der Suche, wie sie ihre Pro­zes­se bei der Con­tent-Erstel­lung opti­mie­ren kön­nen. Die Band­brei­te der Über­le­gun­gen reicht dabei von der Unter­stüt­zung der Redak­teu­re in der Aggre­ga­ti­on von Daten bis zur voll­au­to­ma­ti­sier­ten Pro­duk­ti­on von Texten.

Wie NLG die Ver­la­ge kon­kret unter­stüt­zen kann, brach­te Saim Alkan, Geschäfts­füh­rer von AX Seman­ti­cs, in einem Exper­ten­ge­spräch in der APA auf den Punkt.

Per­so­na­li­sie­rung: Inhal­te kön­nen indi­vi­dua­li­siert werden

In Zukunft kön­nen durch die Kom­bi­na­ti­on von struk­tu­rier­ter Erfas­sung mit Nach­rich­ten- und Kun­den­da­ten immer bes­ser auf den Nut­zer zuge­schnit­te­ne Ein­zel­tex­te gene­riert wer­den. Auf die­sem Weg las­sen sich bald indi­vi­dua­li­sier­te Nach­rich­ten- oder E‑Com­mer­ce-Sei­te erstellen.

Ver­sio­nie­rung: Eine Aus­gangs­ba­sis – vie­le Texte

NLG-Soft­ware ist in der Lage, auf Knopf­druck vie­le ver­schie­de­ne Ver­sio­nen eines Tex­tes zu erstel­len. Damit kann das Dilem­ma von „Dupli­ca­ted Con­tent“ umgan­gen wer­den, der von den Such­ma­schi­nen abge­straft wird. Auch die Tona­li­tät kann für das jewei­li­ge Medi­um bzw. demo­gra­fi­sche Grup­pen opti­miert wer­den. Und sogar unter­schied­li­che Platt­for­men (Web, Mobi­le) eines Medi­ums könn­ten so mit pas­sen­den Ange­bo­ten bedient werden.

Long Tail: Ange­bo­te für die Nische

Der­zeit ist es aus Kos­ten­grün­den oft nicht wirt­schaft­lich, the­ma­ti­sche oder loka­le Nischen zu bedie­nen. Im Sport­be­reich wer­den im Fuß­ball etwa nur die gro­ßen Ligen geco­vert, obwohl die Daten für eine Viel­zahl an Sport­ar­ten vor­han­den wären. NLG ermög­licht hier eine gut auf­be­rei­te­te Bericht­erstat­tung, die User-Inter­es­sen in weit grö­ße­rem Aus­maß als bis­her bedie­nen kann.

Schnel­lig­keit: Tex­te im Sekundentakt

Tex­te kön­nen inner­halb von weni­gen Sekun­den erzeugt und ver­schickt werden.

Inter­na­tio­na­li­sie­rung: Sprach­bar­rie­ren überwinden

Anbie­ter von NLG-Soft­ware bie­ten ihren Kun­den die Mög­lich­keit, ihre Inhal­te in meh­re­ren Spra­chen zu erzeu­gen. Das Com­pu­ter­pro­gramm gene­riert die jewei­li­gen Tex­te direkt in der gewünsch­ten Ziel­spra­che ohne den Umweg über eine ande­re Spra­che. Kost­spie­li­ge Über­set­zun­gen kön­nen so entfallen.

Selb­st­op­ti­mie­ren­de Inhalte

Bezieht man per­for­mance­ori­en­tier­te Daten in die NLG-Soft­ware ein, kann sich der Pro­zess der Text­au­to­ma­ti­sie­rung selbst trai­nie­ren und verbessern.

“Only with auto­ma­ti­on does it make sen­se to make a thousand ver­si­ons of a sto­ry that are spe­ci­fi­cal­ly tar­ge­ted to indi­vi­du­al audi­ence mem­bers, rather than pro­du­cing one sto­ry for a lar­ge audience.”

James Kotecki, AP’s Head of Communications

Knack­punk­te und Limitationen

In sei­nem viel­be­ach­te­ten “Gui­de to Auto­ma­ted Jour­na­lism” für das Tow Cen­ter of Jour­na­lism, der Anfang 2016 publi­ziert wur­de, macht Andre­as Grae­fe sehr anschau­lich auf die Restrik­tio­nen auf­merk­sam, denen die auto­ma­ti­sier­te Tex­ter­stel­lung der­zeit unter­liegt. Die­se decken sich im Wesent­li­chen mit den Erkennt­nis­sen, die auch Kon­stan­tin Dörr, For­scher am IMPZ der Uni­ver­si­tät Zürich, im APA-Medi­a­lab Gespräch festhielt.

Daten­ver­füg­bar­keit und ‑qua­li­tät

Für den jour­na­lis­ti­schen Bereich wer­den hoch­qua­li­ta­ti­ve, ver­läss­li­che Daten in struk­tu­rier­ter und maschi­nen-les­ba­rer Form benö­tigt. Über­all dort wo die Daten­qua­li­tät schlecht oder die Ver­füg­bar­keit nicht gewähr­leis­tet ist z.B. User Gene­ra­ted Infor­ma­ti­on, nied­ri­ger Ser­vice Level bei Open Data, kön­nen die Ergeb­nis­se ver­fälscht werden.

Vali­die­rung

Algo­rith­men kön­nen zwar Kor­re­la­tio­nen her­stel­len, aber nicht Kau­sa­li­tä­ten erklä­ren. Daher kön­nen nur Fak­ten berich­tet wer­den, aber nicht war­um bestimm­te Din­ge pas­sie­ren. Die klas­si­schen Tugen­den des Jour­na­lis­mus: Ein­ord­nung und Kon­tex­tua­li­sie­rung sind wei­ter­hin dem Men­schen vorbehalten.

Qua­li­täts­si­che­rung

ist nur schwer zu bewerk­stel­li­gen. Es kann nicht mehr jeder Text gemo­nitort wer­den. Das kommt vor allem dort zum Tra­gen, wo die Tech­no­lo­gie nicht als Tool im News­room genutzt wird, son­dern als Ersatz für den Men­schen, etwa durch die mas­sen­haf­te Gene­rie­rung zusätz­li­cher Texte.

Nar­ra­ti­on

NLG ist der­zeit noch am Beginn, schön geschrie­be­ne län­ge­re Tex­te kön­nen also noch nicht erwar­tet wer­den. Hier wird sich aber in den nächs­ten Jah­ren viel verbessern.

Aus­wir­kun­gen im Newsroom

Jour­na­lis­ti­sche Arti­kel, die sich mit dem The­ma befas­sen, wer­den nicht müde zu beto­nen, dass der Com­pu­ter einen Jour­na­lis­ten nicht erset­zen kön­ne. Und auch For­scher wie Kon­stan­tin Dörr oder der Ham­bur­ger Jour­na­lis­tik-Pro­fes­sor Tho­mas Hes­ter­mann in die­sem Inter­view von Mee­dia bestä­ti­gen das. Im bes­ten Fall arbei­ten Mensch und Maschi­ne zusammen.

“The future ofOn­ly with auto­ma­ti­on does it make sen­se to make a thousand ver­si­ons of a sto­ry that are spe­ci­fi­cal­ly tar­ge­ted to indi­vi­du­al audi­ence mem­bers, rather than pro­du­cing one sto­ry for a lar­ge audience.”

“The future of com­pu­ta­tio­nal jour­na­lism and auto­ma­ti­on will and should be a col­la­bo­ra­ti­ve one, whe­re you have machi­nes and peop­le working tog­e­ther in a very con­ver­sa­tio­nal way.”

Alexis Llyod, NY Times R&D Lab crea­ti­ve director

Um auto­ma­ti­sier­te Tex­te erstel­len zu kön­nen, benö­tigt man drei Kom­po­nen­ten: Daten, Text­bau­stei­ne und eine Ver­knüp­fung. Für die Pro­duk­ti­on der Text­bau­stei­ne sind in jedem Fall die Redak­teu­re zustän­dig. Und zwar am bes­ten Redak­teu­re, bei den sich jour­na­lis­ti­sche Fähig­kei­ten mit struk­tu­rier­tem, mathe­ma­ti­schem Den­ken paa­ren, wie Dörr erklärt. Sie sor­gen dafür, dass unter­schied­lichs­te Text­bau­stei­ne zu ein und dem­sel­ben Ergeb­nis erzeugt wer­den und Spiel­ver­läu­fe in einem Fuß­ball­spiel model­liert wer­den kön­nen. Da fal­len für die Kate­go­rie Fuß­ball schon bis zu 300 Vari­an­ten an, wuss­te Helen Vogt von der nor­we­gi­schen Nach­rich­ten­agen­tur NTB beim letz­ten GEN Sum­mit im Juni 2016 zu berich­ten. Ein­mal geschrie­ben kön­nen die Text­bau­stei­ne vom Com­pu­ter jeder­zeit belie­big vari­iert wer­den. Lie­gen dann noch gute Anker­punk­te vor z.B. his­to­ri­sche Auf­fäl­lig­kei­ten, ein Fokus auf bestimm­te Spie­ler oder auf Regio­na­li­tät (Spie­ler- und Ver­eins­da­ten­bank) kön­nen wei­te­re Facet­ten erzeugt werden.

Wie automatisierte Texterstellung funktioniert

Kri­ti­sche Fragestellungen

Jour­na­lis­ten wer­fen in die­sem Zusam­men­hang jedoch zu Recht auch eini­ge kri­ti­sche Fra­gen auf, wie die Stu­die „When Repor­ters get hand-on with robo-wri­ting“, die Anfang März 2017 in der inter­na­tio­na­len Peer-Review-Fach­zeit­schrift Digi­tal Jour­na­lism erschie­nen ist, und uns von Kon­sta­tin Dörr zur Ver­fü­gung gestellt wur­de, zeigt. Dar­in konn­ten Jour­na­lis­ten, unter ande­rem der CNN, BBC oder Reu­ters, die Tech­no­lo­gie aus­pro­bie­ren. Drei Punk­te fal­len hier beson­ders ins Auge:

  • Bericht­erstat­tung auf ein­zel­ne, iso­lier­te Daten­sets zu stüt­zen ist aus jour­na­lis­ti­schen Gesichts­punk­ten schwierig.
  • Tem­pla­tes für Unvor­her­ge­se­hens zu schrei­ben, ist nahe­zu unmöglich.
  • Oft liegt die Her­aus­for­de­rung die Geschich­te in den Daten zu erken­nen und nicht aus den Daten eine Geschich­te zu machen.

Dass die gute jour­na­lis­ti­sche Geschich­te oft gar nicht aus den fak­ten­ba­sier­ten Daten ent­steht, son­dern aus Gescheh­nis­sen vor Ort oder durch Inter­views ist eine wei­te­re Kom­po­nen­te, die in die­sem Zusam­men­hang noch unge­löst ist. Robo­ter-Jour­na­lis­mus spielt für die For­scher aus die­sen Grün­den vor allem da eine gro­ße Rol­le, wo Jour­na­lis­ten nicht ver­drängt wer­den, son­dern wo sie noch gar nicht gear­bei­tet haben.

“If you belie­ve that your job as a jour­na­list is to enhan­ce public know­ledge and enrich civic life, then I think you should rea­li­ze wri­ting is sim­ply one of the tools you have at your disposal.”

Andrew DeVi­gal, endo­wed chair in jour­na­lism inno­va­ti­on and civic enga­ge­ment at the Uni­ver­si­ty of Oregon

Daten als das neue Öl

Im Rah­men von Auto­ma­ti­sie­rungs­pro­jek­ten ist neben der Text­bau­stein-Erstel­lung jedoch noch ein wei­te­res Hand­lungs­feld für Ver­la­ge essen­zi­ell: die Erstel­lung und der Betrieb von Daten­ban­ken, deren The­men­ge­bie­te sich für die Auto­ma­ti­sie­rung eig­nen. Hier kom­men je nach Ein­satz­ge­biet redak­tio­nell geschul­tes Per­so­nal zum Ein­satz oder Mit­ar­bei­ter aus ande­ren Ver­lags­be­rei­chen, die für die Erfas­sung der Daten, z.B. Events, zustän­dig sind. Oder aber der Ver­lag stellt Drit­ten Tem­pla­tes für die Erfas­sung von Daten zur Ver­fü­gung und ver­ar­bei­tet die­se dann im Haus wei­ter. Dies ist vor allem im Sport­be­reich inter­es­sant. Exper­ten sind sich einig, dass die­je­ni­gen, die Daten­ban­ken betrei­ben und pfle­gen in Zukunft mehr und – bei algo­rith­mus­ge­trie­be­ner Inter­pre­ta­ti­on – auch wesent­lich kom­ple­xe­re “Robo­ter­be­richt­erstat­tung” durch­füh­ren kön­nen als bisher.

Ein­satz­ge­bie­te von auto­ma­ti­scher Tex­ter­stel­lung im Medienbereich

Ana­ly­siert man die der­zeit bekann­ten, aber auch in den Gesprä­chen mit uns genann­ten noch nicht öffent­lich kom­mu­ni­zier­ten Bei­spie­le so kris­tal­li­sie­ren sich unter­schied­li­che Ein­satz­ge­bie­te von NLG im Medi­en­be­reich her­aus. Die Mehr­heit fokus­siert dabei auf die Bericht­erstat­tung, es las­sen sich aber auch für ande­re Geschäfts­be­rei­che Anwen­dun­gen finden.

Bericht­erstat­tung

  • Sport: z.B. Fußballergebnisse
  • Sicher­heit: z.B.: Verbrechen-Reports
  • Finan­zen & Wirt­schaft: z.B. Bör­se-Reports, Geschäftsberichte
  • Socie­ty: z.B. Prominews
  • Poli­tik: z.B. Wahl­er­geb­nis­se, Wahlprognosen

Ser­vice­mel­dun­gen

  • Umwelt: z.B. Wet­ter­be­rich­te, Feinstaub-Updates
  • Ver­kehr: z.B. Stau­mel­dun­gen, Ankün­di­gung von Straßensperren
  • Ter­mi­ne: z.B. Eventankündigung
  • Bran­chen­buch: z.B. Firmendarstellungen

E‑Commerce

  • Tex­tie­rung von Ange­bo­ten in ver­lags­ei­ge­nen Online-Shops
  • Ver­knüp­fung von Bericht­erstat­tung und kom­mer­zi­el­len Daten­ban­ken z.B. aus dem Seg­ment Essen&Trinken

Zukünf­ti­ge Ein­satz­ge­bie­te laut Expertengesprächen

  • Bericht­erstat­tung: Musik- und Buchvorstellungen
  • Ser­vice­in­hal­te: TV-Pro­gramm, Horo­sko­pe, Ausgehtipps
  • Clas­si­fieds: Tex­tie­rung von Inseraten
  • Ver­lags­mar­ke­ting: Erstel­lung von indi­vi­du­el­len Brie­fen für Abonnenten
  • Neu­ar­ti­ge Zusatz­ser­vices: Appli­ka­tio­nen für Haus & Gar­ten z.B. User geben Pro­fil ihres Gar­tens ein (m2, Lage etc.) – App macht auf Basis von Geo­da­ten und Wet­ter Vor­schlä­ge zu Akti­vi­tä­ten und Gestal­tung rund um das Gartenjahr

Use Cases: Exter­ne und inter­ne Daten­ban­ken verwerten

Schon lan­ge sind Medi­en in der Bericht­erstat­tung auf exter­ne und inter­ne Daten­quel­len ange­wie­sen. Die­se wer­den in unter­schied­li­chen For­ma­ten ver­ar­bei­tet: in daten­jour­na­lis­ti­schen Pro­jek­ten, in Gra­fi­ken oder Tabel­len und seit eini­ger Zeit auch im Bereich der Auto­ma­ti­sie­rung. Die Daten lie­gen dabei in den viel­fäl­ti­gen For­ma­ten vor und las­sen sich sel­ten 1:1 über­neh­men, wes­halb sie für den jour­na­lis­ti­schen Gebrauch meist auf­be­rei­tet wer­den müs­sen. Im Fol­gen­den zeigt ein Über­blick anhand von exem­pla­ri­schen Use Cases wel­che Daten der­zeit ver­wen­det werden.

Exter­ne Sen­sor­da­ten als Quelle

Ers­te Geh­ver­su­che im Bereich auto­ma­ti­sier­ter Tex­ter­stel­lung bei eta­blier­ten Medi­en wur­den bereits 2014 unter­nom­men. So erzeug­te die Los Ange­les Times mit Hil­fe des Qua­ke­bot Erd­be­ben­be­rich­te. In Deutsch­land star­te­te die Ber­li­ner Mor­gen­post den Fein­staub-Moni­tor, der die Luft­gü­te­mes­sun­gen des Umwelt­bun­des­am­tes auswertete.

Rasch zeig­te sich, dass Sen­sor­da­ten – allen vor­an Wet­ter­da­ten – beson­ders geeig­net sind, um auto­ma­ti­sier­te Tex­te zu ver­fas­sen. Eine Rei­he von deutsch­spra­chi­gen Por­ta­len wie Mei​ne​stadt​.de tex­tiert sei­ne Wet­ter­pro­gno­sen mitt­ler­wei­le auf Basis der gelie­fer­ten Wet­ter­da­ten. Wie aus Wet­ter­da­ten eine Mel­dung ent­steht, ist hier anhand eines Bei­spiels beschrieben.

Sportdaten

Das Poten­zi­al der Ver­wer­tung von Sen­sor­da­ten steht erst am Anfang. So eva­lu­iert der­zeit das deut­sche For­schungs­pro­jekt New­stream 3.0 unter Füh­rung des Fraun­ho­fer-Insti­tuts für Intel­li­gen­te Ana­ly­se- und Infor­ma­ti­ons­sys­te­me IAIS inwie­weit sich aus der Beob­ach­tung der Pegel­stän­de gro­ßer deut­scher Flüs­se, ver­wert­ba­re Ergeb­nis­se für die Bericht­erstat­tung able­sen las­sen. Und auch im Rah­men der Goog­le Digi­tal News Initia­ti­ve wer­den aktu­ell Pro­jek­te geför­dert, die den Ein­satz von Sen­sor­da­ten für die Ent­wick­lung neu­er Pro­duk­te erforschen.

Sport­da­ten einbinden

Sportdaten
Im Sport­be­reich exis­tie­ren zahl­rei­che Lie­fe­ran­ten, wel­che die gewünsch­ten Daten sehr gra­nu­lar bereit­stel­len kön­nen. Ledig­lich auf loka­ler Ebe­ne ver­siegt der Zah­len­strom oft, wes­halb hier Nischen­por­ta­le oder Medi­en­un­ter­neh­men selbst aktiv wer­den müs­sen, um eine Bericht­erstat­tung zu gewähr­leis­ten. Ob ein Medi­um auf exter­ne oder inter­ne Quel­len setzt, liegt daher ganz dar­an, ob es bereits eige­ne Sport­da­ten­ban­ken auf­ge­baut hat und ob es eine loka­le, regio­na­le oder über­re­gio­na­le Leser­schaft bedient.

 

Die Use Cases rei­chen inter­na­tio­nal gese­hen von den Live-Ana­ly­sen von NFL-Spie­len durch den 4th Down Bot der New York Times über die auto­ma­ti­sier­te Bericht­erstat­tung der Washing­ton Post rund um die olym­pi­schen Som­mer­spie­le 2016 auf Basis des selbst­ent­wi­ckel­ten Soft­ware Helio­graph bis hin zur Online-Toch­ter des Weser Kurier, die für das Por­tal Sport­buz­zer auto­ma­ti­sier­te Spiel­be­rich­te aus Fuß­ball-Ama­teur­li­gen verfasst.

Auch Nach­rich­ten­agen­tu­ren sind in die­sem Feld aktiv. Kon­kret stel­len die ame­ri­ka­ni­sche AP, die nor­we­gi­sche NTB, die bri­ti­sche PA und die aus­tra­li­sche AAP eigens gekenn­zeich­ne­te Agen­tur­strö­me meist zum Lokal- und Ama­teur­sport zur Verfügung.

Wie Fuß­ball­be­richt­erstat­tung auf Basis eines selbst gepfleg­ten Daten­ka­ta­logs zu den Spie­len aus­se­hen kann, zeigt die­ses Bei­spiel der Nord­west­zei­tung, die im Rah­men einer Koope­ra­ti­on dem FuPa-Por­tal Tex­te zur regio­na­len Fuß­ball­be­richt­erstat­tung liefert.

# Ein 2:1‑Ergebnis für den Süd­er­neu­lan­der SV ## Ost­fries­land­li­ga: Par­tie Süd­er­neu­lan­der SV vs. BSC Bur­ha­fe, Datum: 12.03.2017, Uhr­zeit: 15:00

In der Ost­fries­land­li­ga kam es am 24. Spiel­tag zum Match zwi­schen Süd­er­neu­lan­der SV und BSC Bur­ha­fe. Die Par­tie ende­te mit 2:1 für Süd­er­neu­lan­der SV. In der 28. Minu­te ging der BSC Bur­ha­fe in Füh­rung. Tor­schüt­ze war Tobi­as Tad­di­cken. In der 59. Minu­te folg­te das 1:1 durch Mar­co Peters für Süd­er­neu­lan­der SV. In der 76. fiel ein wei­te­res Tor durch Johan­nes Yal­cin. Dies war der Tref­fer zum 2:1. Die Haus­her­ren mit Trai­ner Mat­thi­as Haupt­mann ste­hen mit 32 Punk­ten aktu­ell auf Posi­ti­on sechs in der Tabel­le. Unter Trai­ner Olaf Link bele­gen die Geg­ner mit 18 Zäh­lern Tabel­len­platz 14.

Hört man sich in der Bran­che um, dann wer­den dem­nächst noch zahl­rei­che wei­te­re Pro­jek­te von deutsch­spra­chi­gen Medi­en­häu­sern im Sport­be­reich gelauncht werden.

Die neue Tech­no­lo­gie hilft aber auch Bran­chen­frem­den medi­en­ähn­li­che Por­ta­le auf­zu­set­zen. Bereits in den Start­lö­chern für den Beta-Start sei­nes Por­tals steht Sport​nach​rich​ten​.at, das von Wolf Galetz­ki, einem Con­sul­tant im Bereich auto­ma­ti­sier­te Tex­ter­stel­lung, als „Show­ca­se für das, was heu­te mög­lich ist“, auf­ge­setzt wur­de. Mone­ta­ri­sie­rungs­phan­ta­sien gäbe es der­zeit kei­ne, mein­te Galetz­ki auf Nach­fra­ge des APA-Medi­a­lab. Gestar­tet wer­de mit Fuß­ball, danach könn­ten noch wei­te­re Sport­ar­ten dazu kommen.

Finanz­da­ten auswerten

Die von der Bör­se getrie­be­ne Bericht­erstat­tung kann tra­di­tio­nell auf viel­fäl­ti­ge Daten­sets zurück­grei­fen, benö­ti­gen Finanz­ma­na­ger doch am bes­ten Real-Time-Daten, um ihre Ent­schei­dun­gen bezüg­lich Käu­fe und Ver­käu­fe tref­fen zu kön­nen. Die­ser Quel­le bedie­nen sich Medi­en wie For­bes, die auf die­ser Basis Nach­rich­ten aus Echt­zeit­fi­nanz­da­ten erzeugt oder auch Focus Online für die Pro­duk­ti­on von auto­ma­ti­sier­ten Tex­ten bei Finanzen100. Für Nach­rich­ten­agen­tu­ren wie AP, die däni­sche Ritzau, die ame­ri­ka­nisch Bloom­berg und PA ist die­ser Use Case meist der Ein­stieg in die Materie.

Finanzdaten

Wahl­da­ten regionalisieren

Wenn Wäh­ler zur Urne schrei­ten, sind Medi­en­un­ter­neh­men in punk­to rasche Daten­ver­wer­tung beson­ders gefor­dert. Immer spä­ter wer­den Ergeb­nis­da­ten zur Ver­fü­gung gestellt, die immer schnel­ler mög­lichst regio­nal für die Öffent­lich­keit auf­be­rei­tet müs­sen. Ein gutes Ein­satz­ge­biet für auto­ma­ti­sier­te Tex­ter­stel­lung, vor allem für Nach­rich­ten­agen­tu­ren, wie Pilot­pro­jek­te bei Reu­ters und der bri­ti­schen Press Asso­cia­ti­on zeigen.

Chro­nik­da­ten erfassen

Auf einer eigens ent­wi­ckel­ten Daten­bank setzt der Homic­i­de Report der Los Ange­les Times auf, auf Basis des­sen Crime-Alerts für jene Bezir­ke pro­du­ziert, in denen die Ver­bre­chens­ra­te eine bestimm­te Schwel­le über­schrei­tet. Die­ses Pro­jekt ist ein guter Show Case dafür, wie Daten­jour­na­lis­mus und auto­ma­ti­sier­te Tex­ter­stel­lung sich sinn­voll ergän­zen können.

Finanzdaten

Ver­wer­tung wei­te­rer haus­ei­ge­ner Datenbanken

Doch auch ande­re Berei­che, für die es bis­her kei­ne Tex­te gibt, eig­nen sich für die Ver­bes­se­rung der Ser­vice­qua­li­tät der erbrach­ten Dienst­leis­tung. So erzählt Vic­tor Dedi­ti­us, Pro­dukt­ma­na­ger Online bei der deut­schen “Nord­west­zei­tung”, im APA-Medi­a­lab-Gespräch, dass man die Tech­no­lo­gie auch für Event­be­schrei­bun­gen auf dem Ter­min­por­tal des Medi­en­hau­ses ein­set­ze oder für Fir­men­be­schrei­bun­gen im Branchenbuch.

Die Anwen­dun­gen im jour­na­lis­ti­schen Bereich sei­en die­sen Pro­jek­ten gefolgt. Auch des­halb weil Ende 2015, als das Medi­um das Pilot­pro­jekt im Bereich Auto­ma­ti­sie­rung star­te­te, die Bedien­bar­keit der Tools noch gewöh­nungs­be­dürf­tig war. Das habe sich sehr ver­bes­sert und Jour­na­lis­ten könn­ten damit jetzt gut umgehen.

Nach­rich­ten­agen­tu­ren als Profiteure

Zahl­rei­che Nach­rich­ten­agen­tu­ren welt­weit expe­ri­men­tie­ren mit auto­ma­ti­sier­ter Tex­ter­stel­lung bzw. bie­ten bereits eige­ne Agen­tur­diens­te an, die von einer Soft­ware erzeugt wur­den. Wel­che Erfah­run­gen damit gemacht wur­den, wo die Her­aus­for­de­run­gen aus Sicht der Nach­rich­ten­agen­tu­ren lie­gen und wie NLG der Agen­tu­rall­tag ver­än­dern kann, erforscht der­zeit gera­de APA-Redak­teur Alex­an­der Fan­ta im Rah­men eines “Goog­le Digi­tal News Fel­low­ship” am Reu­ters Insti­tut in Oxford. Ihm zufol­ge pro­du­ziert bei Agen­tu­ren die ein­ge­setz­te Soft­ware fast immer neue Pro­duk­te oder wei­tet die bis­he­ri­ge Bericht­erstat­tung dras­tisch aus, etwa zu Regio­nal­sport oder Detail-Wahl­er­geb­nis­tex­ten für jede Gemein­de. Sei­ne For­schungs­er­geb­nis­se wer­den wir ab Juni 2017 hier zur Ver­fü­gung stellen.

IT-Dienst­leis­ter für auto­ma­ti­sier­te Texterstellung

Die Ent­wick­lung von haus­ei­ge­ner Soft­ware wird wohl in Zukunft eini­gen weni­gen gro­ßen Medi­en­häu­sern vor­be­hal­ten blei­ben. Denn neue Erkennt­nis­se im Bereich Arti­fi­cal Intel­li­gence las­sen sich nur von spe­zia­li­sier­ten IT-Abtei­lun­gen am Puls der Zeit vor­an­trei­ben. Alle ande­ren wer­den ihre ers­ten Schrit­te in der auto­ma­ti­sier­ten Text­pro­duk­ti­on mit der wach­sen­den Schar an Dienst­leis­tern in die­sem Bereich wagen. Der­zeit bie­ten unse­res Wis­sens 15 Unter­neh­men, davon zwei in den USA (Auto­ma­ted InsightsNar­ra­ti­ve Sci­ence), fünf in Deutsch­land (Ret­res­coAX Seman­ti­csTexto­ma­ticText-On2txt), zwei in Frank­reich (Syll­absLab­sen­se) und je eines in Groß­bri­tan­ni­en (Arria), in Chi­na (Ten­cent), in Russ­land (Yandex), in Bul­ga­ri­en (Identrics), in Nor­we­gen (Oribt​.ai) und in Isra­el (Arti­co­loo) Medi­en­un­ter­neh­men ihre Unter­stüt­zung an.

Der fach­li­che Back­ground der Unter­neh­men ist sehr unter­schied­lich. Wäh­rend die einen z.B. Nar­ra­ti­ve Sci­ence oder Arria aus dem uni­ver­si­tä­ren Umfeld stam­men, haben ande­re wie Ret­res­co oder Identrics ihren Ursprung in der Daten­bank­tech­no­lo­gie und Drit­te wie AX Seman­ti­cs sind aus einer Text­agen­tur her­vor­ge­gan­gen. Wur­de lan­ge Zeit nur auf Kun­den­wunsch pro­gram­miert, so ten­die­ren die Unter­neh­men jetzt zu Self Ser­vice Anwen­dun­gen. Arria und Auto­ma­ted Insights haben ihre Platt­for­men bereits für Ent­wick­ler in Medi­en­häu­sern geöff­net, AX Seman­ti­cs lehrt sei­ne Pro­gram­mier­spra­che auf Hochschulen.

Neben den genann­ten Anbie­tern gibt es noch eine Rei­he wei­te­rer Unter­neh­men, die im Bereich der auto­ma­ti­sier­ten Tex­ter­stel­lung tätig sind, wie Smar­to­lo­gic, Lin­guas­ta oder Yseop. Sie haben aller­dings kei­ne Refe­ren­zen im Mediensektor.

Aus­blick

Wer einen Blick in die Zukunft wagen will, dem sei­en die acht The­sen von Alex­an­der Sie­bert, Geschäfts­füh­rer von Ret­res­co, emp­foh­len. In die­sem Arti­kel für die Huf­fing­ton Post erläu­tert Sie­bert, der sich ger­ne als Exper­te für die Auto­ma­ti­sie­rung Con­tent getrie­be­ner Geschäfts­mo­del­le bezeich­net unter ande­rem war­um bis 2020 der gesam­te Jour­na­lis­mus daten­ge­trie­ben sein wird.

Dass es dabei längst nicht nur um die Pro­duk­ti­on von Tex­ten gehen wird, zeigt das bri­ti­sche Mar­ke­ting-Maga­zin „The Drum“, das IBMs Super­hirn Wat­son jüngst für eine Aus­ga­be als Chef­re­dak­teur enga­gier­te. Wat­son wähl­te Bil­der aus, pass­te Tex­te an und gestal­te­te die Sei­ten. Dafür wur­de der Com­pu­ter mit Daten der Gewin­ner des Gol­de­nen Löwen beim Can­nes Lions Inter­na­tio­nal Fes­ti­val of Crea­ti­vi­ty gefüt­tert. Das Ziel war es, eine krea­ti­ve Künst­li­che Intel­li­genz zu schaf­fen. Wir wer­den sehen, wann die Mar­ke­ting-Expe­ri­men­te zum All­tag in den News­rooms werden.

Finanzdaten

Wei­ter­füh­ren­de Links

Für die Erstel­lung die­ses Bie­fings wur­de ein Viel­zahl von Stu­di­en, jour­na­lis­ti­schen Arti­keln und aka­de­mi­schen Rese­arch Papers gesich­tet sowie Exper­ten­ge­sprä­che geführt. Eine Aus­wahl an lesens­wer­ten Bei­trä­gen ist hier verlinkt.

Kei­ne Angst vor Robo­ter-Repor­tern (Zeit Online, 20. Febru­ar 2017)

Gui­de to Auto­ma­ted Jour­na­lism (Andre­as Grae­fe, Stu­die für das Tow Cen­ter for Digi­tal Jour­na­lism, 07. Jän­ner 2016)

AI is alrea­dy making inroads into jour­na­lism but could it win a Pulit­zer? (The Guar­di­an, 3. April 2016)

Nie­man Reports: Auto­ma­ti­on in the News­room. (01. Sep­tem­ber 2015)

 

 

Vere­na Kra­wa­rik, 23. März 2017

Download Trendbriefing

mdi-download Trendbriefing: Automated Journalism März 2017 Trendbriefing-Automated Journalism PDF/369 kB