TheaterEncyclopedie: Gegevens delen met Wikimedia

Uit TheaterEncyclopedie
Ga naar: navigatie, zoeken

WERK IN UITVOERING

Pilotproject WikiPodia: Ontwikkelen van Procedures en Scripts

Doelstelling
"Het ontwikkelen en testen van procedures en scripts (o.a. queries) om gegevens uit de TheaterEncyclopedie te kunnen delen met de Wikimediaprojecten "Wikipedia" en "Wikidata" en vervolgens wederzijds te verrijken."
Uitgangspunt
Als beginpunt is gekozen voor een lijst van 10 Vlaamse (co-)producenten van producties die een Nederlandse premiere hebben beleefd.

Eerste analyse van beschikbare gegevens - Adlib-export

Eerste bevindingen van data-analyse:

  • Uitgangselectie: 10 Vlaamse gezelschappen
  • Deze 10 gezelschappen zijn betrokken geweest bij 723 in Adlib geregistreerde Producties
  • Deze producties zijn 2015 premiere-data en locaties geregistreerd
  • Deze producties zijn op 717 locaties in premiere gegaan
  • Bij deze producties zijn xxxx (honderden) uitvoerende personen betrokken

Procedure

De te volgen procedure kan in vier stappen worden ingedeeld:

Stap 1
Selecteer 10 Vlaamse gezelschappen die als Co-producent hebben meegewerkt aan producties die in premiere zijn gegaan in Nederland. Vervolgens: Vergelijk & Verrijk deze gezelschappen onderling tussen TE en Wikipedia / Wikidata
Stap 2
Selecteer de Producties waarvan deze gezelschappen (Co-)producent zijn geweest. En vervolgens: Vergelijk & Verrijk.
Stap 3
Selecteer de (Top 15) van locaties ("venues") waarin deze producties in première zijn gegaan. En wederom: Vergelijk & Verrijk.
Stap 4
Selecteer de aan de Gezelschappen, Producties en Locaties gerelateerd Uitvoerenden. En ook hier: Vergelijk & Verrijk. NB: het aantal lemma's zal hier sterk toenemen (en vereist dus wellicht filtering).

Het Vergelijk & Verrijk proces kan uit verschillende onderdelen bestaan, waarvan sommige automatisch kunnen, maar voor andere handmatige acties nodig zijn. Enkele voorbeelden:

  • Onderlinge referenties toevoegen (bijv. bronverwijzingen, Adlib-referentie en Q-nummers)
  • Gestructureerde informatie uitwisselen (TE: Semantische gegevens & Wikimedia: Wikidata)
  • Inhoudelijke (tekstuele) informatie uitwisselen
  • Media (afbeeldingen) uitwisselen

Voor alle (en zeker de laatste) zijn afspraken over auteursrechten essentieel. Wikimedia vereist dat gegevens onder de CC-BY-SA (??) licentie beschikbaar zijn.

N.B. Inmiddels is de licentie aangepast: Het gebruik van data en teksten die op de Theaterencyclopedie staan hebben een CC BY_SA licentie. Zie: TheaterEncyclopedie:Algemeen voorbehoud. De tekst die automatisch verschijnt als je een pagina gaat bewerken (onderaan), maakt nog melding van de CC BY-NC-4.0 licentie. Dit moet ook worden aangepast conform bovenstaande licentie - kunnen de wikiwerkers dit doen? Tuja van den Berg (overleg) 13 mrt 2018 13:35 (CET)

Scripts, overzichten en lijsten

Ten behoeve van elke stap is een (1) of meer scripts (queries, processen) om de voor Vergelijking & Verrijking benodigde informatie te selecteren en uit te wisselen. De informatie staat op de volgende vier (sub)pagina's:

Koppeling van de TE en Wikidata

Het koppelen van informatiebestanden, zoals dat in "Linked Open Data" bedoeld is, kent een aantal aspecten die nodig zijn voor de realisatie van die koppeling:

  1. Het (eenduidig) leggen van relaties tussen de ontologie van de TE en Wikidata
    • Overeenkomstige objecten - In Wikidata aangeduid met Q-nummers en in de TE met een titel van een lemma (paginanaam)
    • Overeenkomstige eigenschappen (properties) - In Wikidata aangeduid met een P-nummer en in de TE met een titel van een lemma in de naamruimte Eigenschap:
  2. Referenties invoeren
    • Relatie invoeren in een Infobox op de TE naar Wikidata (m.b.v. een Q-nummer op basis van de Eigenschap:Wikidata_ID)
    • Relatie invoeren op een Wikidata-pagina d.m.v. een referentie (bronverwijzing) naar de TE (URI/paginanaam op basis van een - nog aan te vragen - Wikidata-property)

Hieronder volgt meer uitleg over de bovengenoemde aspecten.

Relaties informatiemodel / thesaurus

Soorten objecten worden in geïmplementeerd in Semantic MediaWiki als Categorie-pagina. De belangrijkste objecten in de TE zijn (zie ook de Ontologie van de TE):

  1. (Theater)producties - Categorie:Productie - theaterproductie (Q7777570), dansproductie (Q43099869) podiumkunstenproductie (Q43099500)
  2. (Theater)werk - Categorie:Werk - creatief werk (Q17537576), theatrical work (Engels) (Q110013395). choreografisch werk (Q58483088)
  3. Personen Categorie:Persoon - Mens (Q3306038), Persoon (Q15897080) --> human/mens (Q5)
  4. Producenten Categorie:Producent - theaterproducent (Q1759246), theaterbedrijf (Q11812394)
  5. Gezelschappen Categorie:Gezelschap
  6. Locaties Categorie:Locatie -theater (Q24354)

In Wikidata worden deze typen objecten gedefinieerd door een pagina met een Q-nummer in combinatie met een eigenschap zoals bijv. "Instance of" (Property:P31).

Voorbeeld
Locatie in de TE komt (ongeveer...??) overeen met Theater in Wikidata, gedefinieerd als Q24354.

Zie voor de verdere uitwerking deze sub-pagina: Ontologie TE en Wikidata

Verwijzingen invoeren in de TE

Om een relatie te leggen tussen overeenkomstige objecten in de TE en Wikidata, volstaat het invoeren van een referentie (en het semantisch annoteren daarvan).

Het laat zich het best verduidelijken aan de hand van een voorbeeld:

(Bron)verwijzingen invoeren in Wikidata

Om objecten te koppelen c.q. (bron)verwijzingen te maken naar de TE in Wikidata, is het nodig de hiervoor de benodigde properties (vergelijkbaar met eigenschappen in de TE) aan te vragen.

Voorbeeld eigenschap
Een voorbeeld van een eigenschap voor verwijzing naar een locatie ("venue") die is opgenomen in bestand van het Vlaams Kunstenpunt: Flanders Arts Institute venue ID
Voorbeeld verwijzing
Een voorbeeld van verwijzing naar een locatie ("venue") m.b.v. het Flanders Arts Institute venue ID naar de informatie die is opgenomen in bestand van het Vlaams Kunstenpunt: Muziektheater (Amsterdam).

Voor de TE zou dat dus gelden voor objecten zoals boven genoemd: Productie, Werk, Persoon, Locatie, etc.

TE Wikidata
Categorie:Werk TheaterEncyclopedie theater work ID (VOORBEELD)
Categorie:Persoon TheaterEncyclopedie person ID (VOORBEELD)
Categorie:Locatie TheaterEncyclopedie venue ID (VOORBEELD)

Het aanvragen kan de benodigde properties hier: Property proposal

Aan de properties gerelateerde objecten, reeds bestaand, in Wikidata:

Importeren van informatie uit Wikidata

De belangrijkste toegevoegde waarde voor de TE van de koppeling met Wikidata is de mogelijkheid om de informatie op de TE "te verrijken" (aan te vullen) met informatie vanuit Wikidata.

De TE en Wikidata gebruiken verschillende technische oplossingen (MediaWiki extensies), te weten respectievelijk Semantic MediaWiki en Wikibase. Om informatie tussen beide platformen uit te wisselen is een uitbreiding (extensie) van MediaWiki nodig. Er zijn verschillende extensies beschikbaar en/of in ontwikkeling:

In eerste instantie is er voor de TE gekozen voor het gebruik van de Extensie:Wikidata. Hiermee worden de eerste "Proof of Concepts" uitgevoerd voor het importeren van informatie uit Wikidata en het opslaan van deze informatie binnen Semantic Mediawiki (Semantische Annotatie) of eenvoudigweg weergeven van deze informatie op de TE.

Hiervoor is gebruik gemaakt van de wbgetentities module van de Wikibase API (dus geen SPARQL). Lees meer hierover:

Met behulp van dezelfde Extensie:External Data kan overigens ook het SPARQL-endpoint van Wikidata aangesproken worden; zie de voorbeelden in de extensie-docs.

Invoeren van informatie uit de TE in Wikidata

Informatie uit de TE is (grotendeels) vrij beschikbaar voor gebruik in Wikimediaprojecten en dus ook Wikidata.

Lees hierboven meer over de eerste verkenning/pilot binnen het Wikiproject "Procesbeschrijvingen Belgisch-Nederlandse podiumkunsten.

Referenties naar Wikidata

Het Q-nummer speelt een centrale rol in de uitwisseling tussen de TheaterEncyclopedie en Wikimedia-projecten. Hier een korte uitleg.

Wat is een Q-nummer

Q-nummers zijn unieke referenties naar objecten (denk aan pagina's of lemma's) in Wikidata (en daarmee Wikipedia). Met behulp van het Q-nummer is gestructureerde informatie vanuit Wikidata.org op te vragen, vergelijkbaar zoals dat in de TheaterEncyclopedie gebeurt met Semantische queries.

Een vergelijkbare constructie is de Adlib-referentie waarmee op unieke wijze objecten (mensen, producties, ...) in het Adlib-systeem geïdentificeerd kunnen worden.

Toepassing van Q-nummers

Het opnemen van Q-nummers in de TheaterEncyclopedie, maakt het bijvoorbeeld mogelijk om:

  1. Een unieke verwijzing naar Wikipedia (in alle talen) te maken (denk aan een weblink of bronvermelding)
  2. Gegevens uit Wikidata.org te gebruiken voor verrijking van de TheaterEncyclopedie
  3. Met behulp van het Q-nummer kan het relevante lemma op de TE worden gevonden

Daarnaast kan het Q-nummer wellicht als unieke identifier gebruikt worden om gegevens met andere archiefbeheerders uit te wisselen.

PoC: Theaters

Als Proof of Concept is een koppeling met wikidata ontwikkeld (2020-05, Gebruiker:Bmulckhu):

Externe link

  • zie ook verslag van dit project en mogelijkheden om data uit de Te te delen op Wikipedia op Wikipedia