Ekstrakcija gramatičkih podataka na primeru Wiktionary projekta
Wiktionary je bogat izvor lingvističkog znanja i primer uspešne primene crowdsourcing modela. Znanje u Wiktionary-ju je slabo strukturirano, i da bi se omogućila dalja upotreba tog znanja potrebno je da se predstavi u strukturiranom obliku koji će moći automatski da se procesuira i pretražuje. Strukture semantičkog weba su posebno pogodne zbog razvijenih standarda namenjenih za povezivanje sa drugim semantičkim bazama znanja. Osnovna ekstrakcija Wiktionary-ja je već urađena u okviru DBpedia projekta. U ovom radu biće predstavljena ekstrakcija detaljnih gramatičkih podataka koji se dobijaju spajanjem nestrukturiranog sadržaja koji je smešten unutar različitih MediaWiki stranica u XML dump fajlu. Za primer će se uzeti konjugacije francuskih glagola, što je ujedno za sada jedan od malobrojnih gramatičkih sistema sa dovoljnom složenošću koji je obrađen na Wiktionary-ju. Glavni problem koji će biti rešen je analiza i obrada podskupa MediaWiki sistema šablona. Na osnovu tog rešenja biće generisane RDF trojke koje će u potpunosti pokrivati sve podatke iz domena koji se trenutno nalaze na Wiktionary-ju.