apa.at
blog / Freitag 26.03.21

Wie aus Daten loka­le Geschich­ten wer­den: ein Blick auf das Pro­jekt „Wie­ner Dateng’schichten“

Mit „Wie­ner Dateng’schichten“ will die APA – Aus­tria Pres­se Agen­tur auto­ma­tisch gene­rier­te, jour­na­lis­ti­sche Tex­te aus sta­tis­ti­schen Daten der Stadt Wien liefern. 

Dank Open Data Öster­reich ist bereits eine gro­ße Men­ge an Lan­des-Sta­tis­ti­ken öffent­lich ver­füg­bar, die – stark ver­ein­facht aus­ge­drückt – mit­tels NLG (Natu­ral Lan­guage Generation)-Software in Bezirks- und Grätzl-Sto­ries umge­wan­delt wer­den. Und das in einer Viel­zahl und Aktua­li­tät, die die APA bis­her nicht lie­fern konn­te. Die Soft­ware soll Arbeits­er­leich­te­rung für Jour­na­lis­tin­nen und Jour­na­lis­ten brin­gen, die tro­cke­ne Daten in die immer glei­che Tex­te ver­pa­cken müssen.

Ein Pro­jekt mit Potenzial

Laut Pro­jekt­lei­te­rin Katha­ri­na Schell (Mit­glied der APA-Chef­re­dak­ti­on) steigt das Nach­rich­ten­in­ter­es­se in Öster­reich kon­ti­nu­ier­lich. Das Pro­jekt zielt auf die­se ver­stärk­te Nach­fra­ge ab, macht sich die emo­tio­na­le Bin­dung der Men­schen zu ihrer Nach­bar­schaft zunut­ze und setzt das Poten­zi­al für Abneh­mer­märk­te opti­mal ein.

Aus Daten wer­den Texte

Die öffent­lich ver­füg­ba­ren Daten wer­den aus dem Web extra­hiert („gescra­ped“) und so auf­be­rei­tet, dass sie für die Ver­ar­bei­tung durch die NLG-Soft­ware geeig­net sind. Der größ­te gemein­sa­me Nen­ner an Quel­len ist hier data​.gv​.at, der zen­tra­le Kata­log für öffent­lich ver­füg­ba­re Ver­wal­tungs­da­ten in Öster­reich. Aus über 32.000 Daten­sät­zen von über 1.280 Orga­ni­sa­tio­nen ent­stand ein umfas­sen­der Daten­strom mit ver­schie­de­nen the­ma­ti­schen Zuord­nun­gen. Aus die­ser rie­si­gen Daten­men­ge wur­den drei The­men­clus­ter defi­niert, die poten­zi­ell regel­mä­ßig inter­es­san­te Sto­ries lie­fern und lau­fend aktu­ell sind: Tie­re, Ver­kehr und Natur.

Con­tent-Design und ‑Pro­duk­ti­on der „Wie­ner Dateng’schichten”

Aktu­ell wird am Design der Tex­te gear­bei­tet, wobei auch For­mat und Tona­li­tät fest­ge­legt wer­den, bevor es in die tat­säch­li­che Text­pro­duk­ti­on geht. Bereits hier kommt die NLG-Soft­ware zum Einsatz.

Star­kes Zusam­men­spiel von Mensch und Maschine

In der APA-Redak­ti­on wird für die Erstel­lung von Auto­ma­ted Con­tent die Soft­ware AX Seman­ti­cs bereits erfolg­reich ein­ge­setzt. Das Pro­gramm ver­ar­bei­tet struk­tu­rier­te Daten per Knopf­druck zu Tex­ten. Von Robo­ter­jour­na­lis­mus kann aber nicht die Rede sein: Die Redak­teu­rin bzw. der Redak­teur muss eine Art Lücken­text für das Tool erstel­len und alle Even­tua­li­tä­ten im Text vor­her­se­hen (z.B. Aus­nah­men und Unre­gel­mä­ßig­kei­ten), damit das Tool „dazu­ler­nen“ kann. Die­ses Trai­ning der Soft­ware wird neben dem Sto­ry­tel­ling in Men­schen­hand blei­ben, die Ver­ar­bei­tung gro­ßer Daten­men­gen wird aber vom Pro­gramm unterstützt.

Und so geht es weiter

In den kom­men­den Mona­ten wird sich das Pro­jekt­team wei­ter der Pro­duk­ti­on von auto­ma­ti­sier­ten Tex­ten wid­men und meh­re­re Pilo­ten ent­wi­ckeln, die mit aus­ge­wähl­ten Test­kun­den über­prüft werden.

Ende 2021 sol­len mit einem fer­ti­gen Pro­dukt­de­sign regel­mä­ßig „Wie­ner Dateng’schichten” aus­ge­lie­fert werden.

Hin­weis: Das Pro­jekt wird von der Stadt Wien initi­ier­ten För­der­schie­ne „Wie­ner Medi­en­in­itia­ti­ve“ unterstützt.