Екстракција граматичких података на примеру Wiktionary пројекта
Wiktionary је богат извор лингвистичког знања и пример успешне примене crowdsourcing модела. Знање у Wiktionary-ju је слабо структурирано, и да би се омогућила даља употреба тог знања потребно је да се представи у структурираном облику који ће моћи аутоматски да се процесуира и претражује. Структуре семантичког веба су посебно погодне због развијених стандарда намењених за повезивање са другим семантичким базама знања. Основна екстракција Wiktionary-ja је већ урађена у оквиру DBpedia пројекта. У овом раду биће представљена екстракција детаљних граматичких података који се добијају спајањем неструктурираног садржаја који је смештен унутар различитих MediaWiki страница у XML dump fajlu. За пример ће се узети конјугације француских глагола, што је уједно за сада један од малобројних граматичких система са довољном сложеношћу који је обрађен на Wiktionary-ju. Главни проблем који ће бити решен је анализа и обрада подскупа MediaWiki система шаблона. На основу тог решења биће генерисане RDF тројке које ће у потпуности покривати све податке из домена који се тренутно налазе на Wiktionary-ju.