Om data og begreper
- Vi mangler begrep for de nye endringene knyttet til åpne data, sa fornyingsdepartementets Sverre Andreas Lunde-Danbolt på seminaret "Bergen Open". Han har et poeng. På seminaret snakket vi om en (på mange måter) radikalt fornyet kontrakt mellom offentlig sektor og offentligheten knyttet til informasjonsutveksling. Men andre ord snakker vi om en fremtid som ennå ikke har manifestert seg, rutiner som ennå ikke har sett dagens lys, standarder som ennå ikke er etablert. Vi bruker termer som maskinlesbare formater og rådata. Ordene blir i seg selv et hinder - i en samtale som i stor grad foregår mellom de som kan teknologi og de som ikke kan det.
Mangelen på et "språk" gjør seg ikke bare gjeldende i den pågående samtalen mellom media, teknologileverandører og offentlig sektor. Også internt, i verdikjeder og enkeltorganisasjoner er det i økende grad slik at teknologien er den underliggene driveren bak overordnete strategiske valg. Det krever mye av oss, ikke minst at læringstakten og nysgjerrigheten på strategisk nivå må bli høyere, og at teknologikompetanse må involveres i viktige beslutninger. De som behersker teknologien må på sin side bli flinkere til å formidle den, og delta i en samtale om hvordan teknologien påvirker forretningsmodeller og produksjonsrutiner. En samtale som altså forutsetter et språk.
På seminaret Bergen Open stod begrepet "datastøttet journalistikk" sentralt. Det ble tydelig for oss at dette er en svært vid, altomfattende beskrivelse av et vagt definert virksomhetsområde. Meningsinnholdet oppfattes derfor ulikt innhold for ulike personer.
Derfor forsøker vi oss på en raffinering:
Datastøttet journalistikk, slik det brukes i dag, er et samlebegrep som omfatter alt bruk av digitale verktøy for datainnhenting, filtrering og faktasøk til ulike former for interaktiv presentasjonsløsninger. Det er altså en merkelapp som bærer i seg en rekke andre sub-termer som potensielt kan gi oss et mer presist meningsinnhold.
Grovt sett kan vi dele temaet datastøttet journalistikk opp i to. Det som har med data å gjøre, altså strukturert innhold i form av tabeller, på den ene siden. På den andre siden har vi dokumenter, altså ustrukturert innhold som først og fremst består av tekst. En annen naturlig skillelinje går mellom den digitale leseopplevelsen og den journalistiske arbeidsprosessen. Med dette som bakteppe har vi, med fare for mageplask, laget en skisse til et begrepskart som kanskje (i en mer raffinert form) kan bidra til å gjøre dialogen mer presis.

1. Interaktiv innholdsgrafikk er historiefortelling der leseren gjennom et visuelt orientert grensesnitt, kan utforske et strukturert informasjonsunivers. Her snakker vi altså om en visuell ide, bygget på et etter flere datasett og en datamodell. Ord for det samme vil være datavisualisering (som ikke sier så mye om interaksjonsgraden) eller "digital presentasjonsjournalistikk". Det vil selvsagt finnes mange ulike subtyper under vignetten interaktiv innholdsgrafikk.
2. Når det gjelder den journalistisk arbeidsprosessen foreslår vi at man skiller ut databaseverktøy som en kategori. Dette er verktøy for å gjørre spørringer i et datasett eller strukturere opp data. Excel, Access og Google Spreadsheets er enkle varianter, og det finnes også en røys av andre mer avanserte verktøy.
3. Et annet område knyttet til strukturerte data er datafangst, som handler om å fange opp data - enten ved systematisk datainnhøsting (scraping) ved å bruke verktøy som ScraperWiki, Mozenda og Kapow gjør eller ved strukturering av datastrømmer, som eksempelvis Yahoo Pipes.
4. Når det gjelder strukturerte data må vi også understreke viktigheten av gode datakilde-biblioteker. Her jobber myndighetene i Norge med å utvikle data.norge.no etter modell fra data.gov.uk. Samtidig bygges det, med utgangspunkt i InfoMedia på UiB opp sin egen tjeneste, no.ckan.net som er en wikistyle ressurs som kan deles mellom ulike medier/aktører.
5. Når det gjelder ustrukturerte data, snakker vi ofte om dokumenter, enten i egne tekstarkiv eller i eksterne kilder som postjournaler el. Her snakker vi ofte om avanserte søkeløsninger, som trekker ut og strukturerer relevant informasjon, og presenterer søket på en oversiktlig måte i forhold til et spesifikt behov. Wolfram Alpha er et eksempel på et system som generer "fast facts". Gravemaskinen til Anders Brenna et annet.
6. I bunn for slike søketjenester ligger gjerne semantisk indeksering, eller systemer som bruker språkteknologi for å dra ut mer meningsinnhold av tekst (og etterhvert lyd/bilde). Slike systemer kan ofte også generere metainformasjon, som vi kommer tilbake til i egen bloggpost. Eksempler på slike tjenester er bergensbaserte Texturgy og OpenCalais (som desverre, slik vi har forstått det, har dårlig støtte for norsk språk).
7. For leseren vil slike indekser også kunne utnyttes for å skape mer intelligente autosøk, og som serverer relatert innhold i tilknytning til et gitt innholdselement eller på andre måter beriker lesernes mulighet for å utforske universet rundt et gitt innholdselement.
8. Mashups er en innholdsverden som i sanntid aggregerer opp innhold fra ulike kilder, gjerne spisset rundt et gitt tema eller en gitt kontekst. Hyperlokale nyhetstjenester strukturerer opp innhold basert på geografi, som for eksempel Everyblock. Social Newspapers som eksempelvis paper.li utnytter lenkene som sirkulerer i et gitt twitternettverk. Eller tweaker vi begrepet litt nå? Muligens.
Alt du har lest nå er en såkalt mockup, basert på hastig sammenraskede tanker ved MediArenas hovedkvarter i Bergen. Stemmer begrepskartet med terrenget? Sannsynligvis ikke. Finnes det begreper vi burde ha med? Definitivt. Hjelp oss gjerne i å utvikle dialogen.
Men først og fremst: Snakk sammen. Det er nemlig slik vi skaper et språk.

