TheaterEncyclopedie:Kwaliteitsborging informatie

Uit TheaterEncyclopedie
Ga naar: navigatie, zoeken

Deze pagina documenteert de doelstellingen, richtlijnen en projecten, die er gezamenlijk voor zorgen dat de kwaliteit van de gestructureerde (semantische) informatie op de TE is gewaarborgd of wordt verbeterd.

Inleiding

De TheaterEncyclopedie bevat een omvangrijke gegevensverzameling, die deels in vrije (tekst-)vorm, maar ook voor een belangrijk deel in gestructureerde vorm is opgeslagen. De vrije tekst wordt door geregistreerde auteurs geschreven en gecontroleerd volgens reguliere redactionele procedures.

Voor de gestructureerde informatie gelden aanvullende regels. Deze informatie behoort niet alleen (inhoudelijk) juist te zijn, maar er gelden ook voorwaarden voor de vorm en de structuur waarin deze informatie wordt opgeslagen. Denk bijvoorbeeld aan een datum, die in het juiste formaat moet worden opgeslagen, omdat hij anders betekenisloos wordt. Maar ook een goede categorisering (structuur) van de informatie bepaalt uiteindelijke de kwaliteit van de weergegeven overzichten.

Deze pagina richt zich op de kwaliteit van de gestructureerde informatie in de TE: de semantische database en de categorie-structuur en de bijbehorende documentatie.

Doelstellingen

De doelstellingen omvatten:

  • Het in beeld brengen van de informatiekwaliteit
  • Het definieren van verbeteringsprojecten, voor informatie waarvan de kwaliteit niet voldoet
  • Het zonodig vastleggen van richtlijnen waaraan de informatie op de TE moet voldoen.
  • Het zonodig organiseren van procedures om informatie te verbeteren

Definitie van "kwaliteit van informatie"

Er zijn veel verschillende definities van informatiekwaliteit te geven. Voor de TheaterEncyclopedie is het vooral van belang dat informatie voldoet aan de volgende algemene voorwaarden:

  1. De informatie is correct, het bevat geen foute data.
  2. De informatie is up-to-date; de data is bijgewerkt met de meest recente gegevens
  3. Bij voorkeur: De informatie is (zo) compleet (mogelijk), er ontbreekt geen data


Omdat de TE gebruik maakt van MediaWiki en de uitbreiding Semantic MediaWiki gelden extra voorwaarden aan structuur en formattering van de informatie.

  1. Ontologie of informatiemodel:
    • Een goede hiërarchische categorisering van pagina’s, (inhoudelijke teksten, maar ook sjablonen, formulieren, widgets, …)
    • Eenduidig gedefinieerde semantische eigenschappen - pagina’s in de Eigenschappen-naamruimte
  2. Formattering:
    • Conventies voor pagina-namen (inclusief categorie-namen etc.)
    • Uniformiteit van de data - bepaald door het gebruik van sjablonen en formulieren
    • Conformiteit met de systeemeisen van (Semantic) MediaWiki

Inventarisatie

Om een begin te maken, stellen we een lijst op van onderwerpen, waarvan we vermoeden hebben dat er verbeteringen mogelijk en nodig zijn. Na een eerste inventarisatie, kunnen we de onderwerpen op volgorde van prioriteit plaatsen. Hierbij moeten we naast het belang, waarschijnlijk ook rekening houden met de benodigde inspanning om een verbetering te realiseren.

Lijst met aandachtspunten
Onderwerp Uitleg Status
Verwijderen van in onbruik geraakte tags Met name protect …</protect> icm <!-- TIN Waarschuwing: Dit gedeelte van de tekst kunt u niet wijzigen -->
(Dubbele) doorverwijzingen van pagina’s Kunnen semantische problemen veroorzaken. Zie Speciaal:DubbeleDoorverwijzingen AFGEROND T/M 16-8-2021 (MF)
Doorverwijzingen van pagina's naar categorie-pagina's Kunnen semantische problemen veroorzaken. Voorbeeld: Jeugdtheater --> Categorie:Jeugdtheater (inmiddels opgeheven)
Een hiërarchische categorie-structuur ontbreekt
Definieren / documenteren / opschonen Semantische Eigenschappen Zie o.a. Speciaal:GewensteEigenschappen
Het legacy-sjabloon Sjabloon:Infobox_productie Huidige "doorlinkina" naar Sjabloon:Productie geeft mogelijk weergave en/of semantische problemen
Andere Sjabloon:Infobox_ … geven mogelijk semantische problemen
Het gebruik van gereserveerde tekens in formulieren/sjablonen Veroorzaakt weergave en/of semantische problemen
Syntaxfouten bij het toewijzen van pagina’s aan categorieën Veroorzaakt incomplete categorieën en weergave-fouten op pagina's
Toevoegen beroep-categorieën aan persoonspagina's Door het ontbreken van bijv. [[Category:Zanger|ACHTERNAAM, VOORNAAM]] of [[Category:Acteur|ACHTERNAAM, VOORNAAM]] ontbreken veel personen in de overzichtslijsten van beroepen
Dubbele sjabloonparameter "Seizoen" in sjabloon foto's Waarschijnlijk door (tin?)bot; voorbeeld Bestand:Adrienne Lecouvreur 118409.jpg
Processing errors op Persoonspagina's Foutieve invoer in infobox PLUS probleem met doorverwijspagina's voor Uitgebreid TCV Zie TE:Persoonspagina's en TheaterEncyclopedie:Kwaliteitsborging informatie/Processing errors persoonspagina's
Gezelschap in Categorie:Persoon Gezelschap als persoon ingedeeld (en met TCV) Zie: Gezelschap van de Nacht, Voorbeeld 1 en Voorbeeld 2

Overigen:

  • Vele "rode links" a.g.v. het ontbreken van pagina's. Zie bijvoorbeeld "Titel" op de pagina Miss Saigon - Joop van den Ende Theaterproducties BV - 2011-09-23
    • Veel fouten a.g.v. gebruik "verboden" tekens in het veld Titel (van het type Pagina); onderzoek loopt naar aanpassing van type Pagina naar Tekst.
    • Op de Test-TE is de typering van de Eigenschap:Titel aangepast in tekst (i.p.v. pagina) - Zie test:Eigenschap:Titel
      • Check/Besluiten om dit ook op de productie-omgeving te implementeren
  • Invoer van "verboden" tekens in formulieren
    • Probleem met "hashtag" in (begin van) titelveld van theaterproductiepagina
  • Foutieve invoer van opmaak (links met enkele/incomplete vierkante haken etc.) in formulieren

Uitwerking

Verwijdering in onbruik geraakte tags

De tag-combinatie <protect>...</protect> heeft zijn functie verloren en kan verwijderd worden van de TE.

Voorbeeld: bovenaan in de brontekst van deze pagina en (vrijwel) onderaan

Mogelijk verwijderen via Speciaal:TekstVervangen

  • Regex-code voor het zoeken-en-vervangen van de tags: (<\/?protect>)
  • De tag komt waarschijnlijk op 6-8000 pagina's (in tweevoud) voor; door de beperking van de TekstVervangen-functie moet deze dus meermalen herhaald worden.

Eventueel extra te verwijderen Comment

  • Comment tags: <!-- TIN Waarschuwing: Dit gedeelte van de tekst kunt u niet wijzigen -->
  • Regex-code voor het zoeken-en-vervangen van de tags: <\/?protect>\n?(<!-- TIN Waarschuwing: Dit gedeelte van de tekst kunt u niet wijzigen -->)?

Legacy Sjabloon:Infobox_productie

Mogelijke oplossingsrichtingen:

  1. Met behulp van Zoek-en-vervang
  2. Door gebruik van Tinbot

Gebruik van Tinbot om legacy productie-pagina's bij te werken

  1. Door Tinbot een productiepagina opnieuw te laten genereren komt hij automatisch in de juiste samenstelling (met Sjabloon:Productie etc.) op de TE te staan.
  2. Dit werkt alleen goed voor pagina's die niet door gebruikers zijn bewerkt
    • Veel pagina's uit de bovengenoemde lijst kennen een bewerkingsgeschiedenis door de gebruikers Tinbot/Q42, Ad Aerts (zoek en vervang actie!) en ProjectP.

Hulpmiddelen

Filteren van fouten in de invoervelden van formulieren

Er ontstaan weergave- en semantische fouten door vergissingen bij het invoeren van data in formulieren.

Voorbeelden bij Voorstellingen:

  • Voorbeeld: tussen twee puntkomma's ontbreekt een naam (lege ruimte) (; ;)
  • Voorbeeld: Haakjes worden niet evenwichtig om personen gezet ([[NAAM])

Het is mogelijk om dit soort fouten op te lossen met Regexp-filtering in formuliervelden; zie documentatie. Hiervoor is het nodig alle velden voor de invoer van personen in het Formulier:Productie aan te passen.

{{{field|foo|input type=regexp|regexp=/^[0-9A-Za-z ]+$/}}} Filteren op karakters die zijn toegestaan voor paginatitels...

Foutfilters:

\[\[[^\]]*?\]{1}[^\]]     - Enkele (geen dubbele) afsluitende vierkante haak 
[^\[][\[][^\[][^\]]*?\]\] - Enkele openende haken (geen dubbele) - Verbeterde versie: ^\[[^\[][^\]]*?\]\]|[^\[][\[][^\[][^\]]*?\]\]
;\s*;                     - Lege invoer tussen ;'s
[^']#                     - Gebruik van hashtag zonder "'"

Test-input                [naam0]]; [[naam van een persoon];  ; [[naam2]] ; [naam3]]; [[naam4]] ;;'#'bla; #blal []]

NB:

  • De bovenstaande filters moeten gebruikt worden met de "inverse-functie"; de patronen zijn NIET toegestaan
  • De patronen moeten worden aangevuld (regex in formulieren moeten beginnen en eindigen met /^ ... $/

Testformulier: test:Formulier: Test invoercontrole