TheaterEncyclopedie:Verbetering koppeling TheaterEncyclopedie en TheaterCollectie (2023)

Uit TheaterEncyclopedie
Ga naar: navigatie, zoeken

In de loop van de jaren zij er steeds meer knelpunten naar boven gekomen bij het beheren van de informatie die zowel in de TheaterCollectie als in de TheaterEncyclopedie is opgenomen. Om hierin verbetering aan te brengen is besloten tot het starten van een project. De beschrijving van dit project is in de tweede helft van 2023 opgesteld in een zogheten Startnotitie TheaterEncyclopedie.De volledige tekst hiervan is te vinden op de pagina: Startnotitie.


Doelstelling

Het doel van het project is om de koppeling en informatie-uitwisseling tussen de premièredatabase van Axiell Collections en de Theaterencyclopedie, en de techniek achter de Theaterencyclopedie, te verbeteren en toekomstbestendig te maken, ook voor de koppeling naar andere platforms. In het ideale geval bereiken we de volgende doelen (bron: Startnotitie):

  1. Op de Theaterencyclopedie wordt het helderder welke informatie uit de premièredatabase afkomstig is, en welke informatie is toegevoegd door gebruikers van de website (bronvermelding).
  2. Informatie-uitwisseling kan tweezijdig plaatsvinden: vanuit de premièredatabase naar de Theaterencyclopedie en vice versa. De mogelijkheden met betrekking tot de terugstroom van informatie vanuit de Theaterencyclopedie naar de premièredatabase (welke op dit moment niet aan de orde is) moet hiervoor eerst worden onderzocht.
  3. Er moeten daarbij afspraken komen over de oorspronkelijke bron van informatie: voor welke informatie is de premièredatabase leidend ten opzichte van de Theaterencyclopedie, en vice versa?
  4. De premièredatabase en de Theaterencyclopedie kunnen beide gegevens aanpassen volgens eigen invoerregels, waarbij de regels of wensen vanuit het ene platform niet in de weg zit voor het andere platform, of technisch opgelost moeten worden.


Randvoorwaarden

  1. Bepalen welke bron leidend is voor welke data
    1. Leidende informatiebronnen binnen de Productiedatabase
    2. Leidende informatiebronnen binnen de TheaterEncyclopedie
    3. Externe leidende informatiebronnen (bijv. PK.net)
  2. Aansluiting bij ontwikkelingen van terminologiebronnen en de Architectuurblauwdruk binnen Netwerk Digitaal Erfgoed / PK.net (NB: referentie / linking toevoegen naar broninfo)
  3. Beschikbaarheid van genoeg middelen en mensen zijn om dit project te realiseren
  4. Axiell Collections is in gebruik genomen inclusief het gebruik van URI's en/of PID's

Dit onderdeel is gebaseerd op de oorspronkelijke tekst op (sub)pagina Randvoorwaarden en afhankelijkheden voor het project TE met enkele aanvullingen.

Uitwerking van doelstellingen

  • Ontwikkeling naar een koppeling op basis van een URI en/of PID, oftewel een unieke identifier
  • Ontwikkeling naar een API-koppeling met (bijna) real-time uitwisseling (importeren) van informatie
  • De informatiebron van de productiedatabase wordt ‘real-time’ gekopieerd/geïmporteerd, maar biedt tevens de mogelijkheid om op de Theaterencyclopedie flexibel te corrigeren en aan te vullen. De koppeling gaat hierbij niet verloren.
    • Het moet mogelijk blijven om in beide bestanden data toe te kunnen voegen en te verrijken
    • Het verdubbelen van data-invoer moet voorkomen worden
  • Er moeten maatregelen komen voor kwaliteitsbeheer van de informatie (synchronisatie en ontdubbeling van informatie)
  • De data wordt onder een CC-BY-SA-licentie aangeboden
  • De data worden geregistreerd in het Dataregister (zie uitleg Nationaal Archief).
  • De data worden als linked open data aangeboden (ja)
  • (technische) Oplossingen voor problemen die ontstaan in de TE door invoerregels vanuit AP/TIN. Dit gaat om personen met een functie in de naam en co-producties/hoofdproducenten (lost zichzelf deels op; personendatabase wellicht koppelen?)
  • Revisie velden die gemigreerd worden in beide databases. Welke data uit welke velden worden gemigreerd van de ene naar de andere database? (binnen project uitzoeken)


Dit onderdeel is gebaseerd op de oorspronkelijke tekst op (sub)pagina's Startnotitie en Randvoorwaarden en afhankelijkheden voor het project TE. Detailuitwerking is verplaatst naar het onderstaande #Wensen & eisen.

Wensen & eisen

Voor de Productiedatabase van AP/TIN

Op basis van de uitgewerkte doelstellingen zijn de volgende wensen en eisen voor ontwikkeling van de AP/TIN geformuleerd:

  • Ontwikkeling naar een koppeling op basis van een URI en/of PID, oftewel een unieke identifier
    • De data in AP/TIN moet een PID hebben
    • In de database van AP/TIN moet een veld komen om te kunnen linken met de PID uit de TE
  • Ontwikkeling naar een API-koppeling met (bijna) real-time uitwisseling (importeren) van informatie vanuit de TE (NB: is dit noodzakelijk of kan/zal dit batch-gewijs gaan gebeuren ?)
  • Er moeten maatregelen komen voor kwaliteitsbeheer van de informatie (synchronisatie en ontdubbeling van informatie)
    • Er moet een controleslag ingebouwd worden voordat de data definitief in de databases terecht komt. Dit gaat vooral om een workflow en gebruik van techniek om dit uit te kunnen voeren
    • De data moet in een formaat opgeslagen zijn dat geschikt is om downloads en een controleslag in de databases te realiseren


Voor de TheaterEncyclopedie

Op basis van de uitgewerkte doelstellingen zijn de volgende wensen en eisen voor ontwikkeling van de TE geformuleerd:

  • Ontwikkeling naar een koppeling op basis van een URI en/of PID, oftewel een unieke identifier
    • De data in de TE moeten PID’s hebben
    • In de TE moet een veld komen om te kunnen linken met de PID uit de database van AP/TIN
  • Ontwikkeling naar een API-koppeling met (bijna) real-time uitwisseling (importeren) van informatie
    • Voor entiteiten: Productie, Personen, Producenten, Locaties, ...
    • Voor media: Foto's, Geluidsfragmenten, Filmfragmenten, ...
  • Er moeten maatregelen komen voor kwaliteitsbeheer van de informatie (synchronisatie en ontdubbeling van informatie)
    • Er moet een controleslag ingebouwd worden voordat de data definitief in de databases terecht komt. Dit gaat vooral om een workflow en gebruik van techniek om dit uit te kunnen voeren
      • BM: Vanuit het perspectief van de TE-database zal de werking als volgt zijn (voorstel):
        1. Informatie vanuit de Productiedatabase van de TheaterCollectie wordt gezien als betrouwbaar en wordt zonder controleslag in de TE geïmporteerd.
        2. het is te allen tijden mogelijk om de geïmporteerde waarde te overschrijven met een lokaal ingevoerde waarde, die dan wordt weergegeven èn opgeslagen in de database van de TE.
    • Er moet in de TE een (zichtbaar) verschil zijn voor data uit de verschillende bronnen. Data uit database AP/TIN of toegevoegd door vrijwilligers of toegevoegd door medewerkers TE. Niet alleen om te kunnen identificeren welke data naar de database AP/TIN gemigreerd zouden moeten worden maar ook om de gebruikers te helpen bij het beoordelen van de kwaliteit van data in geval van discrepanties
      1. Lokaal ingevoerde waarden worden in een andere kleur weergegeven (voorstel): bijvoorbeeld de accentkleur (roze) van de huisstijl van de TE
      2. Geïmporteerde informatie vanuit de TheaterCollenctie wordt weergegeven in de kleur: ???
      3. Geïmporteerde informatie vanuit WikiData wordt weergegeven in de kleur:
      4. Voor andere informatiebronnen zijn andere kleuren beschikbaar
      5. Er is een legenda (of tooltip o.i.d.) beschikbaar met uitleg over de weergegeven kleur.
    • De data moet in een formaat opgeslagen zijn dat geschikt is om downloads en een controleslag in de databases te realiseren
      1. Alle data wordt in de Semantische database opgeslagen conform de beschikbare/passende datatype's (tekst, datum, url, uri, etc. etc.)
      2. Data kan volgens de standaard functies van Semantic MediaWiki op diverse manieren en in diverse formaten (waaronder CSV, XLS en XML/RDF) geëxporteerd worden.
    • De TE moet niet langer hoofdlettergevoelig zijn - Omdat het platform waarop de TE draait hoofdlettergevoelig is, zal de TE dit ook zijn en blijven; VOORSTEL: Vervangen door onderstaande beschrijving:
    • Er dienen maatregelen genomen te worden zodat de volgende functies niet meer hoofdlettergevoelig zijn:
      • Zoeken naar Producties (Voorstellingspagina's) in de TE
      • Zoeken naar Personen (persoonspagina's) in de TE
      • ...
    • Er moet een oplossing komen voor het feit dat als er gewijzigd/aangevuld wordt in de database van AP/TIN data overschreven wordt/nieuwe pagina’s worden aangemaakt in de TE. Idealiter worden deze verbeterde/verrijkte data uit de database AP/TIN opgehaald in de TE zonder dat dit invloed heeft op de daar reeds verbeterde/verrijkte data

Projectplan

Nader te bepalen

Planning / tijdlijn

De daadwerkelijk start van ontwikkelingen binnen het project is niet eerder voorzien dan in september 2024.

Tot die tijd wordt gewerkt aan de uitwerking van het projectplan.

Nadere invulling is dus te nog te bepalen.

Bijlagen