TheaterEncyclopedie:Configuratie sitemap (2018)
Eind 2018 is een klein project gestart met als doel de vindbaarheid van TE-content te verbeteren door middel van het genereren van een sitemap. Primair zal deze sitemap bij Google Search Console ingediend worden, t.b.v. de vindbaarheid in de Google-zoekmachine.
Opties voor implementatie
- Via een standaard maintenance script van MediaWiki - generateSitemap.php
- zie documentatie
- Via de extensie AutoSitemap
- zie documentatie
- Via de extensie DynamicWikiSitemap
- zie documentatie
Gekozen oplossing
Omdat de beschikbare sitemap-extensies geen additionele functionaliteit bieden en ook de configuratie niet substantieel gebruiksvriendelijker, is gekozen voor het gebruik van de standaard maintenance routine voor het genereren van sitemaps.
Configuratie-instellingen gekozen oplossing
Het maintenance script generateSitemap.php kent diverse configuratiemogelijkheden, waarvan sommige in LocalSettings.php
gespecificeerd zijn, en andere als parameter meegegeven worden.
Gekozen is om de sitemap-files te plaatsen in de directory: /sitemap/..
Bij aanvang is gekozen voor de volgende instellingen:
Op de productie-omgeving:
php maintenance/generateSitemap.php --memory-limit=100M --fspath=sitemap/ --identifier=theaterencyclopedie --urlpath=https://theaterencyclopedie.nl/w/sitemap --server=https://theaterencyclopedie.nl --compress=yes --skip-redirects
Op de test-omgeving:
php maintenance/generateSitemap.php --memory-limit=100M --fspath=sitemap/ --identifier=testtheaterencyclopedie --urlpath=https://test.theaterencyclopedie.nl/w/sitemap --server=https://test.theaterencyclopedie.nl --compress=yes --skip-redirects
De opdracht (voor de productieomgeving) is opgenomen in de root cronjob en draait dagelijks ('s nachts).
LocalSettings:
Zie:
- Documentatie voor het instellen van de namespaces voor de sitemap
- Documenatie voor het instelling van prioriteiten - niet aangepast!
Voorbeeld:
Naamruimtes in de sitemap:
- 0 - Hoofdnaamruimte - Y
- 2 - Gebruikers - N
- 4 - Project (TheaterEncyclopedie:) - Y
- 12 - Help - Y
$wgSitemapNamespaces = array( 0, 4, 12 );
Eventuele aanpassing prioriteiten (niet aangepast!):
$wgSitemapNamespacesPriorities = array( NS_USER => '0.9', NS_HELP => '0.0', );
Aanpassing robots.txt
:
- Omdat Google een HTTP-foutmelding geeft voor het lezen van de sitemap-index file, is de robots.txt als volgt aangepast.
User-agent: SemrushBot Disallow: / User-agent: SemrushBot-SA Disallow: / User-agent: * Disallow: /w/ Allow: /w/sitemap/ Crawl-delay: 10 Sitemap: https:/theaterencyclopedie.nl/w/sitemap/sitemap-index-theaterencyclopedie.xml
Toegevoegde regels:
- Sitemap:
- Allow:
Resultaten
Rapportages zijn toegankelijk via Google Search Console - (inloggen vereist).
De meeste recente sitemap die Google heeft opgevraagd is van 19 maart 2019 bevat 235.746 pagina's (links) in de hoofd- en helpnaamruimte.
Op 20 maart 2019 (ca. 2 maanden na het aanmaken van de eerste sitemap) zijn via Google Search Console de volgende rapportages gemaakt.
- Het aantal door Google geïndexeerde pagina's is gestegen naar ca. 100.000 (was ca. 65.000).
- Het aantal door Google uitgesloten pagina's (wel gevonden en/of gecrawled) is ca. 150.000
Wat opvalt is het grote aantal uitgesloten pagina's.
Voorbeelden van niet geïndexeerde pagina's
Enkele voorbeelden, van pagina's die wel zijn gevonden door Google, maar niet worden geïndexeerd:
- P._Blom_van_Assendelft
- W.C._Blavatsky
- Once_I_Was_Body_-_Dansgroep_Amsterdam_-_2012-04-07
- István_Balint
- Nina_Ulanova
- Het_liefdesmuseum_-_Het_Verhalenbedrijf_-_2003-02-14
- Sidney_Cauveren
- Focus_Showequipment
- Désirée_Jonkers
- Richard_Alberts
Wat opvalt:
- Het zijn met name pagina's over personen, die weinig inhoud en geen afbeelding hebben (en soms ook weinig uitgaande (interne) links).
Mogelijke maatregelen
Voorbeelden van maatregelen om de indexatie te verbeteren:
- Meer inhoud (tekst en afbeeldingen) op de personen-pagina's
- Meer interne links (bijv. naar uitvoeringen waaraan is deelgenomen)
- Pagina's met minimale inhoud verwijderen (als bovenstaande niet mogelijk blijkt); link opnemen in lijst ("To-Do" - Inspiratie)
- (Semantische) tags toevoegen aan de pagina's
- Externe links naar deze pagina's creëren (bewerkelijk)
- ...
Om het aantal links te verhogen kunnen ook de volgende naamruimten extra worden toegevoegd:
- Naamruimte 6 - Bestanden /afbeeldingen - In principe overlappend met hoofdnaamruimte
- Naamruimte 12 - Categorieën - bevat nog veel categorieën met weinig inhoud en/of categorieën die te vervangen zijn door semantische eigenschappen ("Uitvoerende...")
Zie verder TheaterEncyclopedie:Actiepunten#Verbeteren "ranking" TE in zoekmachine (Google), voor vervolgstappen.