TheaterEncyclopedie:Configuratie sitemap (2018)

Uit TheaterEncyclopedie
Ga naar: navigatie, zoeken

Eind 2018 is een klein project gestart met als doel de vindbaarheid van TE-content te verbeteren door middel van het genereren van een sitemap. Primair zal deze sitemap bij Google Search Console ingediend worden, t.b.v. de vindbaarheid in de Google-zoekmachine.

Opties voor implementatie

Via een standaard maintenance script van MediaWiki - generateSitemap.php
zie documentatie
Via de extensie AutoSitemap
zie documentatie
Via de extensie DynamicWikiSitemap
zie documentatie

Gekozen oplossing

Omdat de beschikbare sitemap-extensies geen additionele functionaliteit bieden en ook de configuratie niet substantieel gebruiksvriendelijker, is gekozen voor het gebruik van de standaard maintenance routine voor het genereren van sitemaps.


Configuratie-instellingen gekozen oplossing

Het maintenance script generateSitemap.php kent diverse configuratiemogelijkheden, waarvan sommige in LocalSettings.php gespecificeerd zijn, en andere als parameter meegegeven worden.

Gekozen is om de sitemap-files te plaatsen in de directory: /sitemap/..

Bij aanvang is gekozen voor de volgende instellingen:

Op de productie-omgeving:

php maintenance/generateSitemap.php --memory-limit=100M  --fspath=sitemap/ --identifier=theaterencyclopedie --urlpath=https://theaterencyclopedie.nl/w/sitemap --server=https://theaterencyclopedie.nl --compress=yes --skip-redirects

Op de test-omgeving:

php maintenance/generateSitemap.php --memory-limit=100M  --fspath=sitemap/ --identifier=testtheaterencyclopedie --urlpath=https://test.theaterencyclopedie.nl/w/sitemap --server=https://test.theaterencyclopedie.nl --compress=yes --skip-redirects

De opdracht (voor de productieomgeving) is opgenomen in de root cronjob en draait dagelijks ('s nachts).

LocalSettings:

Zie:

  • Documentatie voor het instellen van de namespaces voor de sitemap
  • Documenatie voor het instelling van prioriteiten - niet aangepast!

Voorbeeld:

Naamruimtes in de sitemap:

  • 0 - Hoofdnaamruimte - Y
  • 2 - Gebruikers - N
  • 4 - Project (TheaterEncyclopedie:) - Y
  • 12 - Help - Y
$wgSitemapNamespaces = array( 0, 4, 12 );

Eventuele aanpassing prioriteiten (niet aangepast!):

$wgSitemapNamespacesPriorities = array(
    
NS_USER => '0.9',
    NS_HELP => '0.0',

);

Aanpassing robots.txt:

  • Omdat Google een HTTP-foutmelding geeft voor het lezen van de sitemap-index file, is de robots.txt als volgt aangepast.
User-agent: SemrushBot
Disallow: /

User-agent: SemrushBot-SA
Disallow: /

User-agent: *
Disallow: /w/
Allow: /w/sitemap/
Crawl-delay: 10

Sitemap: https:/theaterencyclopedie.nl/w/sitemap/sitemap-index-theaterencyclopedie.xml

Toegevoegde regels:

  • Sitemap:
  • Allow:

Resultaten

Rapportages zijn toegankelijk via Google Search Console - (inloggen vereist).

De meeste recente sitemap die Google heeft opgevraagd is van 19 maart 2019 bevat 235.746 pagina's (links) in de hoofd- en helpnaamruimte.

Op 20 maart 2019 (ca. 2 maanden na het aanmaken van de eerste sitemap) zijn via Google Search Console de volgende rapportages gemaakt.

  • Het aantal door Google geïndexeerde pagina's is gestegen naar ca. 100.000 (was ca. 65.000).
  • Het aantal door Google uitgesloten pagina's (wel gevonden en/of gecrawled) is ca. 150.000

Wat opvalt is het grote aantal uitgesloten pagina's.

Voorbeelden van niet geïndexeerde pagina's

Enkele voorbeelden, van pagina's die wel zijn gevonden door Google, maar niet worden geïndexeerd:

Wat opvalt:

  • Het zijn met name pagina's over personen, die weinig inhoud en geen afbeelding hebben (en soms ook weinig uitgaande (interne) links).

Mogelijke maatregelen

Voorbeelden van maatregelen om de indexatie te verbeteren:

  1. Meer inhoud (tekst en afbeeldingen) op de personen-pagina's
  2. Meer interne links (bijv. naar uitvoeringen waaraan is deelgenomen)
  3. Pagina's met minimale inhoud verwijderen (als bovenstaande niet mogelijk blijkt); link opnemen in lijst ("To-Do" - Inspiratie)
  4. (Semantische) tags toevoegen aan de pagina's
  5. Externe links naar deze pagina's creëren (bewerkelijk)
  6. ...

Om het aantal links te verhogen kunnen ook de volgende naamruimten extra worden toegevoegd:

  • Naamruimte 6 - Bestanden /afbeeldingen - In principe overlappend met hoofdnaamruimte
  • Naamruimte 12 - Categorieën - bevat nog veel categorieën met weinig inhoud en/of categorieën die te vervangen zijn door semantische eigenschappen ("Uitvoerende...")

Zie verder TheaterEncyclopedie:Actiepunten#Verbeteren "ranking" TE in zoekmachine (Google), voor vervolgstappen.