Volumen 6 - 2014

Abstrakt

Wiktionary je bogat izvor lingvističkog znanja i primer uspešne primene crowdsourcing modela. Znanje u Wiktionary-ju je slabo strukturirano, i da bi se omogućila dalja upotreba tog znanja potrebno je da se predstavi u strukturiranom obliku koji će moći automatski da se procesuira i pretražuje. Strukture semantičkog weba su posebno pogodne zbog razvijenih standarda namenjenih za povezivanje sa drugim semantičkim bazama znanja. Osnovna ekstrakcija Wiktionary-ja je već urađena u okviru DBpedia projekta. U ovom radu biće predstavljena ekstrakcija detaljnih gramatičkih podataka koji se dobijaju spajanjem nestrukturiranog sadržaja koji je smešten unutar različitih MediaWiki stranica u XML dump fajlu. Za primer će se uzeti konjugacije francuskih glagola, što je ujedno za sada jedan od malobrojnih gramatičkih sistema sa dovoljnom složenošću koji je obrađen na Wiktionary-ju. Glavni problem koji će biti rešen je analiza i obrada podskupa MediaWiki sistema šablona. Na osnovu tog rešenja biće generisane RDF trojke koje će u potpunosti pokrivati sve podatke iz domena koji se trenutno nalaze na Wiktionary-ju.

Ključne reči: Crowdsourcing, semantički web, Wiktionary

Objavljen na sajtu: 4.2.2014

Priloženi fajl: ekstrakcija-gramatickih-podataka-na-primeru-wiktionary-projekta.pdf

FaLang translation system by Faboba

Ekstrakcija gramatičkih podataka na primeru Wiktionary projekta

Volumeni

Volumen 1 - 2009

Volumen 2 - 2010

Volumen 3 - 2011

Volumen 4 - 2012

Volumen 5 - 2013

Volumen 6 - 2014

Volumen 7 - 2015

Volumen 8 - 2016

Volumen 9 - 2017

Volumen 10 - 2020

Volumen 11 - 2019

Volumen 12 - 2020

Volumen 13 - 2021

Volumen 14 - 2022

Volumen 15 - 2023

Volumen 16 - 2024

Volumen 17 - 2025

Autori

Pretraga