REPOZYTORIUM UNIWERSYTETU
W BIAŁYMSTOKU
UwB

Proszę używać tego identyfikatora do cytowań lub wstaw link do tej pozycji: http://hdl.handle.net/11320/8771
Tytuł: Les prénoms et les patronymes dans les ressources dictionnairiques pour le traitement automatique du polonais par NooJ
Inne tytuły: Dictionary of first names and surnames for the automatic treatment of Polish by NooJ
Autorzy: Bogacki, Krzysztof
Dryjańska, Agnieszka
Słowa kluczowe: NooJ
traitement automatique des langues naturelles
patronymes
prénoms
automatic treatment of natural languages
surnames
first names
Data wydania: 2019
Data dodania: 3-lut-2020
Wydawca: Wydawnictwo Uniwersytetu w Białymstoku
Źródło: Białostockie Archiwum Językowe, nr 19, 2019, s. 47-65
Abstrakt: Cet article rend compte d’une recherche qui s’ inscrit dans une perspective plus large de mettre à la disposition des chercheurs des ressources linguistiques – dictionnaires et grammaires locales – dédiées au polonais. En premier lieu, nous présentons un dictionnaire électronique morphologique prénoms et des patronymes au format NooJ. Le corpus pris en compte pour l’élaboration de cette ressource, constitué à partir de plusieurs sources publiées sur Internet, contient plus de 466.000 vedettes (7.586 prénoms et 458.244 patronymes). Cherchant à réduire les dimensions du dictionnaire, nous avons proposé une description modulaire qui a nécessite la création de plus de 40 grammaires locales pour les patronymes et presque le double pour les prénoms. En conséquence, le dictionnaire reconnaît plus de 33 Mo de formes. La solution ci-dessus – dictionnairique – présentant l’inconvénient d’être peu économique en ce qui concerne le temps et la taille des fichiers finals, nous avons proposé une approche grammaticale. Dans la dernière partie de l’article, nous expliquons cette démarche aussi bien que les avantages et les inconvénients des deux méthodes et des ambigüité sémantiques et grammaticales générées par elles. Ensuite, nous justifions notre choix d'élaborer cette partie du lexique et, après un bref survol des propriété qui distinguent les noms propres des noms communs, nous présentons celles qui en polonais ont un impact direct sur la forme des mots retenus et constituent les principaux axes d’opposition entre eux. Outre les catégories grammaticales ayant un impact direct sur la forme (cas, genre et nombre), nous mentionnons, pour les prénoms, leur origine (slave, latine, grecque, biblique, etc.). Face aux hésitations quant à l’observation des régles d'usage restrictives, mais souvent non observées, nous avons décidé d'adopter une position libérale qui n'exclut pas certaines formes même si elles sont considérées comme erronées par les puristes.
This paper reports on a study whose purpose was to provide researchers specializing in the automatic treatment of natural languages with linguistic resources dedicated to Polish, namely dictionaries and local grammars. Firstly, a morphological dictionary of first names and surnames in NooJ format is presented. The corpus for the dictionary, made up of texts collected from several sources published on the Internet, contains more than 466,000 headwords (7 586 first names and 458 244 surnames). Seeking to reduce the size of the dictionary, we propose a modular approach for the construction of local grammars. It requires, however, the creation of more than 40 local grammars for surnames and almost double for first names. The dictionary recognizes altogether about 33MB of forms. As the solution based on a list of first names and surnames is time- and disc space-consuming, we introduce another approach – based on local grammars only. In the final part of the paper, we discuss the advantages and disadvantages of both solutions, as well as semantic and grammatical ambiguities that cannot be overcome in both approaches. Secondly, we discuss the reasons for the choice of this part of the lexicon, and next, having given a brief overview of the properties that distinguish proper nouns from the common names, we describe these properties that have a direct impact on the forms of surnames in Polish and constitute the main sources of opposition among them. In addition to the grammatical categories (case, gender and number) affecting surnames’ forms, we also point out their origin (Slavic, Latin, Greek, biblical etc.). As for the observance of the usage rules of Polish surnames, very strict or more flexible, we have adopted a liberal approach that does not exclude certain forms, although they can be considered erroneous by purists.
Afiliacja: Krzysztof BOGACKI - Uniwersytet Warszawski
Agnieszka DRYJAŃSKA - Uniwersytet Warszawski
E-mail: Krzysztof BOGACKI: kbogacki@gmail.com
Agnieszka DRYJAŃSKA: a.dryjanska@uw.edu.pl
URI: http://hdl.handle.net/11320/8771
DOI: 10.15290/baj.2019.19.03
ISSN: 1641-6961
metadata.dc.identifier.orcid: 0000-0003-2755-4276
0000-0003-1649-8408
Typ Dokumentu: Article
Występuje w kolekcji(ach):Białostockie Archiwum Językowe, 2019, nr 19

Pokaż pełny widok rekordu Zobacz statystyki


Pozycje w RUB są chronione prawem autorskim, z zastrzeżeniem wszelkich praw, chyba że zaznaczono inaczej.