Волумен 6 - 2014

Абстракт

Wiktionary је богат извор лингвистичког знања и пример успешне примене crowdsourcing модела. Знање у Wiktionary-ju је слабо структурирано, и да би се омогућила даља употреба тог знања потребно је да се представи у структурираном облику који ће моћи аутоматски да се процесуира и претражује. Структуре семантичког веба су посебно погодне због развијених стандарда намењених за повезивање са другим семантичким базама знања. Основна екстракција Wiktionary-ja је већ урађена у оквиру DBpedia пројекта. У овом раду биће представљена екстракција детаљних граматичких података који се добијају спајањем неструктурираног садржаја који је смештен унутар различитих MediaWiki страница у XML dump fajlu. За пример ће се узети конјугације француских глагола, што је уједно за сада један од малобројних граматичких система са довољном сложеношћу који је обрађен на Wiktionary-ju. Главни проблем који ће бити решен је анализа и обрада подскупа MediaWiki система шаблона. На основу тог решења биће генерисане RDF тројке које ће у потпуности покривати све податке из домена који се тренутно налазе на Wiktionary-ju.

Кључне речи: Crowdsourcing, semantički web, Wiktionary

Објављен на сајту: 4.2.2014

Тип рада: Стручни радови

Приложени фајл: ekstrakcija-gramatickih-podataka-na-primeru-wiktionary-projekta.pdf

FaLang translation system by Faboba

Екстракција граматичких података на примеру Wiktionary пројекта

Волумени

Волумен 1 - 2009

Волумен 2 - 2010

Волумен 3 - 2011

Волумен 4 - 2012

Волумен 5 - 2013

Волумен 6 - 2014

Волумен 7 - 2015

Волумен 8 - 2016

Волумен 9 - 2017

Волумен 10 - 2018

Волумен 11 - 2019

Волумен 12 - 2020

Волумен 13 - 2021

Волумен 14 - 2022

Волумен 15 - 2023

Волумен 16 - 2024

Волумен 17 - 2025

Аутори

Претрага