TheaterEncyclopedie:Kwaliteitsborging informatie
Deze pagina documenteert de doelstellingen, richtlijnen en projecten, die er gezamenlijk voor zorgen dat de kwaliteit van de gestructureerde (semantische) informatie op de TE is gewaarborgd of wordt verbeterd.
Inleiding
De TheaterEncyclopedie bevat een omvangrijke gegevensverzameling, die deels in vrije (tekst-)vorm, maar ook voor een belangrijk deel in gestructureerde vorm is opgeslagen. De vrije tekst wordt door geregistreerde auteurs geschreven en gecontroleerd volgens reguliere redactionele procedures.
Voor de gestructureerde informatie gelden aanvullende regels. Deze informatie behoort niet alleen (inhoudelijk) juist te zijn, maar er gelden ook voorwaarden voor de vorm en de structuur waarin deze informatie wordt opgeslagen. Denk bijvoorbeeld aan een datum, die in het juiste formaat moet worden opgeslagen, omdat hij anders betekenisloos wordt. Maar ook een goede categorisering (structuur) van de informatie bepaalt uiteindelijke de kwaliteit van de weergegeven overzichten.
Deze pagina richt zich op de kwaliteit van de gestructureerde informatie in de TE: de semantische database en de categorie-structuur en de bijbehorende documentatie.
Doelstellingen
De doelstellingen omvatten:
- Het in beeld brengen van de informatiekwaliteit
- Het definieren van verbeteringsprojecten, voor informatie waarvan de kwaliteit niet voldoet
- Het zonodig vastleggen van richtlijnen waaraan de informatie op de TE moet voldoen.
- Het zonodig organiseren van procedures om informatie te verbeteren
Definitie van "kwaliteit van informatie"
Er zijn veel verschillende definities van informatiekwaliteit te geven. Voor de TheaterEncyclopedie is het vooral van belang dat informatie voldoet aan de volgende algemene voorwaarden:
- De informatie is correct, het bevat geen foute data.
- De informatie is up-to-date; de data is bijgewerkt met de meest recente gegevens
- Bij voorkeur: De informatie is (zo) compleet (mogelijk), er ontbreekt geen data
Omdat de TE gebruik maakt van MediaWiki en de uitbreiding Semantic MediaWiki gelden extra voorwaarden aan structuur en formattering van de informatie.
- Ontologie of informatiemodel:
- Een goede hiërarchische categorisering van pagina’s, (inhoudelijke teksten, maar ook sjablonen, formulieren, widgets, …)
- Eenduidig gedefinieerde semantische eigenschappen - pagina’s in de Eigenschappen-naamruimte
- Formattering:
- Conventies voor pagina-namen (inclusief categorie-namen etc.)
- Uniformiteit van de data - bepaald door het gebruik van sjablonen en formulieren
- Conformiteit met de systeemeisen van (Semantic) MediaWiki
Inventarisatie
Om een begin te maken, stellen we een lijst op van onderwerpen, waarvan we vermoeden hebben dat er verbeteringen mogelijk en nodig zijn. Na een eerste inventarisatie, kunnen we de onderwerpen op volgorde van prioriteit plaatsen. Hierbij moeten we naast het belang, waarschijnlijk ook rekening houden met de benodigde inspanning om een verbetering te realiseren.
Onderwerp | Uitleg | Status |
---|---|---|
Verwijderen van in onbruik geraakte tags | Met name protect …</protect> icm <!-- TIN Waarschuwing: Dit gedeelte van de tekst kunt u niet wijzigen -->
|
|
(Dubbele) doorverwijzingen van pagina’s | Kunnen semantische problemen veroorzaken. Zie Speciaal:DubbeleDoorverwijzingen | AFGEROND T/M 16-8-2021 (MF) |
Doorverwijzingen van pagina's naar categorie-pagina's | Kunnen semantische problemen veroorzaken. | Voorbeeld: Jeugdtheater --> Categorie:Jeugdtheater (inmiddels opgeheven) |
Een hiërarchische categorie-structuur ontbreekt | ||
Definieren / documenteren / opschonen Semantische Eigenschappen | Zie o.a. Speciaal:GewensteEigenschappen | |
Het legacy-sjabloon Sjabloon:Infobox_productie | Huidige "doorlinkina" naar Sjabloon:Productie geeft mogelijk weergave en/of semantische problemen | |
Andere Sjabloon:Infobox_ … | geven mogelijk semantische problemen | |
Het gebruik van gereserveerde tekens in formulieren/sjablonen | Veroorzaakt weergave en/of semantische problemen | |
Syntaxfouten bij het toewijzen van pagina’s aan categorieën | Veroorzaakt incomplete categorieën en weergave-fouten op pagina's | |
Toevoegen beroep-categorieën aan persoonspagina's | Door het ontbreken van bijv. [[Category:Zanger|ACHTERNAAM, VOORNAAM]] of [[Category:Acteur|ACHTERNAAM, VOORNAAM]] ontbreken veel personen in de overzichtslijsten van beroepen | |
Dubbele sjabloonparameter "Seizoen" in sjabloon foto's | Waarschijnlijk door (tin?)bot; voorbeeld Bestand:Adrienne Lecouvreur 118409.jpg | |
Processing errors op Persoonspagina's | Foutieve invoer in infobox PLUS probleem met doorverwijspagina's voor Uitgebreid TCV | Zie TE:Persoonspagina's en TheaterEncyclopedie:Kwaliteitsborging informatie/Processing errors persoonspagina's |
Gezelschap in Categorie:Persoon | Gezelschap als persoon ingedeeld (en met TCV) | Zie: Gezelschap van de Nacht, Voorbeeld 1 en Voorbeeld 2 |
Overigen:
- Vele "rode links" a.g.v. het ontbreken van pagina's. Zie bijvoorbeeld "Titel" op de pagina Miss Saigon - Joop van den Ende Theaterproducties BV - 2011-09-23
- Veel fouten a.g.v. gebruik "verboden" tekens in het veld Titel (van het type Pagina); onderzoek loopt naar aanpassing van type Pagina naar Tekst.
- Op de Test-TE is de typering van de Eigenschap:Titel aangepast in tekst (i.p.v. pagina) - Zie test:Eigenschap:Titel
- Check/Besluiten om dit ook op de productie-omgeving te implementeren
- Invoer van "verboden" tekens in formulieren
- Probleem met "hashtag" in (begin van) titelveld van theaterproductiepagina
- Foutieve invoer van opmaak (links met enkele/incomplete vierkante haken etc.) in formulieren
Uitwerking
Verwijdering in onbruik geraakte tags
De tag-combinatie <protect>...</protect>
heeft zijn functie verloren en kan verwijderd worden van de TE.
Voorbeeld: bovenaan in de brontekst van deze pagina en (vrijwel) onderaan
Mogelijk verwijderen via Speciaal:TekstVervangen
- Regex-code voor het zoeken-en-vervangen van de tags:
(<\/?protect>)
- De tag komt waarschijnlijk op 6-8000 pagina's (in tweevoud) voor; door de beperking van de TekstVervangen-functie moet deze dus meermalen herhaald worden.
Eventueel extra te verwijderen Comment
- Comment tags:
<!-- TIN Waarschuwing: Dit gedeelte van de tekst kunt u niet wijzigen -->
- Regex-code voor het zoeken-en-vervangen van de tags:
<\/?protect>\n?(<!-- TIN Waarschuwing: Dit gedeelte van de tekst kunt u niet wijzigen -->)?
Legacy Sjabloon:Infobox_productie
- Link naar Sjabloon:Infobox_productie
- Lijst met pagina's die dit sjabloon gebruiken: Speciaal:VerwijzingenNaarHier/Sjabloon:Infobox_productie
Mogelijke oplossingsrichtingen:
- Met behulp van Zoek-en-vervang
- Door gebruik van Tinbot
Gebruik van Tinbot om legacy productie-pagina's bij te werken
- Door Tinbot een productiepagina opnieuw te laten genereren komt hij automatisch in de juiste samenstelling (met Sjabloon:Productie etc.) op de TE te staan.
- Dit werkt alleen goed voor pagina's die niet door gebruikers zijn bewerkt
- Veel pagina's uit de bovengenoemde lijst kennen een bewerkingsgeschiedenis door de gebruikers Tinbot/Q42, Ad Aerts (zoek en vervang actie!) en ProjectP.
Hulpmiddelen
- Formulieren (met invoerbeperkingen)
- Sjablonen (met filtermogelijkheden)
- Speciaal:TekstVervangen en ...
- Speciaal:MassaalVerwijderen
- Diverse onderhoudspagina's op Speciaal:SpecialePaginas
Filteren van fouten in de invoervelden van formulieren
Er ontstaan weergave- en semantische fouten door vergissingen bij het invoeren van data in formulieren.
Voorbeelden bij Voorstellingen:
- Voorbeeld: tussen twee puntkomma's ontbreekt een naam (lege ruimte) (; ;)
- Voorbeeld: Haakjes worden niet evenwichtig om personen gezet ([[NAAM])
Het is mogelijk om dit soort fouten op te lossen met Regexp-filtering in formuliervelden; zie documentatie. Hiervoor is het nodig alle velden voor de invoer van personen in het Formulier:Productie aan te passen.
{{{field|foo|input type=regexp|regexp=/^[0-9A-Za-z ]+$/}}} Filteren op karakters die zijn toegestaan voor paginatitels...
Foutfilters:
\[\[[^\]]*?\]{1}[^\]] - Enkele (geen dubbele) afsluitende vierkante haak [^\[][\[][^\[][^\]]*?\]\] - Enkele openende haken (geen dubbele) - Verbeterde versie: ^\[[^\[][^\]]*?\]\]|[^\[][\[][^\[][^\]]*?\]\] ;\s*; - Lege invoer tussen ;'s [^']# - Gebruik van hashtag zonder "'" Test-input [naam0]]; [[naam van een persoon]; ; [[naam2]] ; [naam3]]; [[naam4]] ;;'#'bla; #blal []]
NB:
- De bovenstaande filters moeten gebruikt worden met de "inverse-functie"; de patronen zijn NIET toegestaan
- De patronen moeten worden aangevuld (regex in formulieren moeten beginnen en eindigen met
/^ ... $/
Testformulier: test:Formulier: Test invoercontrole