TheaterEncyclopedie:Exporteren van informatie
De TheaterEncyclopedie (TE) is gebouwd op MediaWiki-software en beschikt standaard over diverse mogelijkheden om informatie te exporteren. Daarnaast maakt de TE gebruikt van de uitbreiding Semantic MediaWiki, die het mogelijk maakt flexibel gestructureerde informatie uit de TE te exporteren.
Zie ook de pagina over koppelingen van de TE met andere systemen.
Deze pagina is Werk In Uitvoering...
Samenvatting van verschillende methodes om informatie te exporteren uit de TE
Afhankelijk van de doelstelling of toepassing van de koppeling zijn de onderstaande methoden beschikbaar om informatie te exporteren. De methoden verschillen onder andere in:
- Het beschikbare format van de data (bijv. XML, RDF, CSV, JSON, etc.)
- Het online / real time inlezen of juist offline als bestand downloaden van de informatie
- Het type informatie (gestructureerde / semantische informatie of juist ongestructureerde tekstuele informatie)
Ook het beschikbare volume (denk aan aantal records of MB aan informatie) verschilt per methode.
Wikitekst XML-export
Om informatie tussen (vooral, maar niet exclusief) wiki's uit te wisselen is er de pagina Speciaal:Exporteren (en Speciaal:Importeren).
RDF-export
Standaard beschikt de TE over mogelijkheden om informatie in OWL/RDF te exporteren, dat kan bijvoorbeeld via:
- De RDF-exportpagina: Speciaal:RDFExporteren (zie ook docs: https://www.semantic-mediawiki.org/wiki/Help:RDF_export )
- RDF-export per pagina: https://theaterencyclopedie.nl/wiki/Special:ExportRDF/Cristina_Deutekom of Speciaal:RDFExporteren/Cristina Deutekom
- Alternatieve url: https://theaterencyclopedie.nl/w/index.php?title=Special:ExportRDF&page=Cristina_Deutekom
- RDF-export op pagina-id WERKT NIET: https://theaterencyclopedie.nl/w/index.php?title=Special:ExportRDF&curid=3730, https://theaterencyclopedie.nl/w/index.php?title=Special:ExportRDF&pageid=3730
- Via Semantic Queries met een RDF Result Format (zie docs: https://www.semantic-mediawiki.org/wiki/Help:RDF_format ); deze queries zullen we al naar gelang de wensen zelf kunnen formuleren.
- Via de Semantic API (NB: Er is bestaat een beperking in het aantal te exporteren records - 500)
- API-url van de TE (zowel voor MediaWiki als extensie Semantic MediaWiki): https://theaterencyclopedie.nl/w/api.php
- https://www.semantic-mediawiki.org/wiki/Help:API - Overzicht
- https://www.semantic-mediawiki.org/wiki/Help:API:ask - Belangrijkste Semantic Query API
- Via het maintenance script dumpRDF.php (alleen toegankelijk via systeembeheer; enige manier om complete "dump" van gegevens te maken).
SPARQL endpoint
De TheaterEncyclopedie maakt gebruik van Semantic MediaWiki; het is wel mogelijk, maar standaard worden gegevens niet via een SPARQL endpoint beschikbaar gesteld (zie ook docs: https://www.semantic-mediawiki.org/wiki/Help:Using_SPARQL_and_RDF_stores). Deze methode is momenteel niet beschikbaar op de TE.
Download van informatie in txt of csv-format
Op verzoek kunnen complete lijsten van alle pagina's (lemma's) in een categorie van de TE samengesteld worden. De informatie is dan te downloaden in TXT of CSV-formaat en verder te verwerken.
NB: Doordat de TE dagelijks wordt aangevuld met nieuwe informatie kunnen de lijsten incompleet zijn !
Beschikbare bestanden in CSV-formaat met velden tussen aanhalingstekens:
- Bestand:Alle personen.csv - Alle titels van pagina's, zijnde namen van personen, die onderdeel uitmaken van Categorie:Persoon
- Bestand:Alle personen - extended.csv - bevat extra info: pagina-id en url
- Bestand:Alle locaties.csv- Alle titels van pagina's, zijnde naam en plaats van de locatie, die onderdeel uitmaken van Categorie:Locatie
- Bestand:Alle locaties - extended.csv - bevat extra info: pagina-id en url
- Bestand:Alle regisseurs - extended.csv - Alle titels van pagina's(incl. pagina-id's en url's), die onderdeel uitmaken van Categorie:Regisseur
- Bestand:Alle plaatsen - extended.csv - Alle titels van pagina's (incl. pagina-id's en url's), die onderdeel uitmaken van Categorie:Plaats
- Bestand:Alle theaterberoepen - extended.csv - Alle titels van pagina's (incl. pagina-id's en url's), die onderdeel uitmaken van Categorie:Theaterberoep; deze lijst is niet compleet en er worden veel meer benamingen van beroepen gebruikt in de TE (zie ook Gebruiker:Bmulckhu/kladblok33
Zie de betreffende bestandspagina voor aanmaakdatum en de downloadlink.
Overige methoden
- MediaWiki RSS-feed
- MediaWiki API (bijv. raw format)
- Waaronder ook de Category-API en (vooral) Categorymembers-API voor het samenstellen van lijsten van pagina's.
- Voorbeeld: https://theaterencyclopedie.nl/w/api.php?action=query&list=categorymembers&cmtitle=Category:Persoon&cmlimit=500 - link voor "get" (weergeven als JSON) van de (eerste) 500 personen in de Categorie:Persoon
- Voorbeeld: https://theaterencyclopedie.nl/w/api.php?action=query&list=categorymembers&cmtitle=Category:Persoon&cmlimit=500&cmcontinue=page|4142204b4f4b|163507 - link voor de weergave van het vervolg (gebruik van
cmcontinue
(zie ook documentatie). - Script-voorbeelden voor MW-API: https://www.mediawiki.org/wiki/API:Client_code
- dumpgenerator.py - Tool om lijsten en backups te creëren (bron)
- Waaronder ook de Category-API en (vooral) Categorymembers-API voor het samenstellen van lijsten van pagina's.
- Semantic MW API
- Voorbeeld: https://theaterencyclopedie.nl/w/api.php?action=ask&query=[[Cristina_Deutekom]]|?Adlib|mainlabel=-&format=jsonfm
- Voorbeeld (vergelijkbaar): https://theaterencyclopedie.nl/w/api.php?action=ask&query=[[Cristina_Deutekom]]|?Adlib&format=jsonfm
- https://theaterencyclopedie.nl/w/api.php?action=askargs&conditions=Cristina_Deutekom&printouts=Adlib¶meters=mainlabel%3D-&format=jsonfm
- Delen van de bestanden/afbeeldingen tussen MediaWiki-systemen -
Via extensies kan het aantal methodes om informatie te exporteren worden uitgebreid.