- English
- Français
- ﺍﻟﻌﺮﺑﻴﺔ
ABOUT THIS PROTOTYPE WEBSITE
Arabic Verb Conjugation (Tasrif) is dedicated to investors for demo and evaluation purposes.
This prototype contains 300 conjugation models chosen from the full dictionary. The full dictionary contains 15,400 verbal entries ready for use and classified into 460 conjugation models. As in traditional grammar, the dictionary contains simple and augmented triliteral (14,500) and quadriliteral (900) root verbs: with regular root, geminate root, with hamza, with one or two weak consonants, or a combination of these features.
The homepage & the display
The user should simply type in the verb without caring about knowledge in Arabic morphology.
No need to enter the pattern and the kind of root. The full dictionary does not allow the conjugation of an arbitrary sequence of letters as in many existing conjugators.
The homepage contains two text boxes for typing in the verb to be conjugated, either in Arabic or in transliterated script. The conjugation is displayed in four tabs: a basic conjugation (34 forms) with two tabs for Arabic script and Latin transliteration, and a complete conjugation (144 forms), in Arabic script only, divided into two tabs for active and passive. Short vowels are fully scripted in the displays.
Figures on the lexicon
Our 460 conjugation models are complete. Our lexicon is almost complete with 15,400 entries. Each entry is inflected into 144 surface forms and in average 158 forms if we include orthographic variations due to agglutination. We have tested our resource with 50,000 verbal occurrences.
The size of the full-form dictionary is 2.43 million surface forms. The size of the full-form dictionary in plain text is 132 Megabytes in Unicode UTF-8. It is compressed into 4 Megabytes before loading to memory for fast retrieval. The generation, compression and minimization of the full-form lexicon take less than one minute on a common Windows laptop. The tagging of a 4-segment verbal form takes less than 0.5 millisecond.
The breakthrough The breakthrough lies in the reversal of the traditional root-and-pattern Semitic model into pattern-and-root, giving precedence to patterns over roots. This change enables faster identification of the verbal entry, its root and its pattern, with a lower margin of error; moreover, it avoids the definition of several hundred interdependent morphological, phonological and orthographic rules.
About the developer
The program and Arabic language resources were developed by Alexis Amid Neme (2011), a language technologist, specialist in Arabic Natural Language Processing in Laboratoire d’Informatique Gaspard-Monge (LIGM), Université Paris-Est, France. It includes the UNITEX Language Resource Manager (Paumier, 2011).
The development of the website was carried out and coordinated by Alexis Neme with the help of Cristian Martinez (architecture), Hélène Roualdes and Lionel Robuchon (design), Patrice Hérault (security).
Practical uses
This program is an essential resource for Arabic e-learning software for native and non-native speakers. The resources may be used also as a Web service to teach Arabic conjugation with games. This program may be used also to perform accurate analysis of an agglutinated verbal form into up to 4 segments: 2 prefixes, verb stem, and suffixed pronoun. It can also determine for a verbal form its associated canonical form and conjugation features: voice, tense, person, gender, number and mood. The program determines precisely the verbal pattern, the root, the root kind, and also root letter alternations or assimilation.
In the end of the project, an Arabic lexical database of inflected forms will be released with 60,000 lexical entries, i.e. 6 million inflected forms. It will be possible to include this base in various products: spell checker, post-editing after optical character recognition, etc.
A PROPOS DE CE SITE PILOTE
Arabic Verb Conjugation (Tasrif) s'adresse aux investisseurs. C'est un site pilote pour la démonstration et l'évaluation de notre technologie de conjugaison des verbes de la langue arabe.
Ce prototype de notre produit contient 300 modèles de conjugaison choisis dans le dictionnaire complet. Notre base verbale contient 15 400 entrées classées en 460 modèles de conjugaison. Comme dans la grammaire traditionnelle, le dictionnaire contient les verbes à racine trilitère simple et augmentée (14 500) et quadrilitère (900) : racines régulières, géminées, avec hamza, avec une ou deux semi-consonnes, ou avec une combinaison de ces caractéristiques.
Aide à l’utilisation
Il suffit de saisir le verbe sans se soucier de la morphologie arabe.
Inutile de saisir le schème ou le type de racine. Le système ne conjugue pas les séquences de lettres arbitraires, contrairement à de nombreux autres conjugueurs.
La page d'accueil affiche deux boites de dialogue pour écrire le verbe à conjuguer, soit en arabe, soit dans l'alphabet latin. La conjugaison est affichée dans quatre onglets : une conjugaison de base (34 formes) avec deux onglets pour l'écriture arabe et la translitération dans l'alphabet latin, et une conjugaison complète (144 formes), en écriture arabe seulement, divisée en deux onglets pour l'actif et le passif. Les formes sont entièrement voyellées dans les tableaux.
Les ressources
Nos 460 modèles de conjugaison sont complets. Notre lexique est finalisé avec 15 400 entrées verbales. Chaque entrée est fléchie en 144 formes de surface, soit en moyenne 158 formes en comptant les variations orthographiques dues à l’agglutination. Nos ressources ont été testées sur 50 000 occurrences verbales.
La base contient 2,43 millions de formes fléchies et représente, en texte brut, 132 mégaoctets en Unicode UTF-8. Il est comprimé et réduit à 4 mégaoctets, chargés en mémoire, pour une récupération rapide des données. La génération et la compression du lexique complet prennent environ une minute sur un portable Windows ordinaire. L'analyse d’une forme verbale prend moins de 0.5 milliseconde.
L'innovation L’invention réside dans l’inversion du modèle sémitique traditionnel racine-schème, utilisé par tous les dictionnaires, en faveur d'un modèle schème-racine, donnant la priorité au schème sur la racine. Cette inversion permet une identification plus rapide de l'entrée verbale, de sa racine et de son schème, avec une marge d’erreur plus faible; de plus, elle permet d'éviter de définir plusieurs centaines de règles morphologiques, phonologiques et orthographiques interdépendantes.
Les acteurs du programme
Ce programme et les ressources linguistiques pour l'arabe ont été développés par Alexis Amid Neme (2011), spécialiste de traitement automatique de la langue arabe, au laboratoire d’informatique Gaspard-Monge (LIGM), Université Paris-Est, France. Ce projet intègre le gestionnaire de ressources linguistiques d'UNITEX (Paumier, 2011).
Le développement du site a été réalisé et coordonné par Alexis Neme avec l'assistance de Cristian Martinez (architecture), Hélène Roualdes et Lionel Robuchon (design), Patrice Hérault (sécurité).
Finalité du projet
Ce programme est une ressource essentielle pour les logiciels d'apprentissage de l'arabe en ligne, première ou deuxième langue. Les ressources peuvent aussi être employées en tant que service Web pour enseigner la conjugaison arabe avec des jeux. Ce programme peut également être utilisé pour analyser précisément une forme verbale agglutinée en quatre segments : deux préfixes, le radical du verbe et un pronom suffixé. Il peut également déterminer pour une forme verbale, sa forme canonique et ses propriétés grammaticales : voix, temps, personne, genre, nombre et mode. Le programme détermine avec précision le schème, la racine, le type de racine, et aussi les alternances et assimilations des consonnes radicales.
A la fin du projet, une base de référence informatisée des formes fléchies de l’arabe sera constituée avec 60 000 entrées lexicales, soit 6 millions de formes fléchies. Cette base de référence informatisée de la langue arabe pourra être exploitée dans différents supports : correcteur d’orthographe, lecteur optique, etc.
ﺣﻮﻝ ﺍﻟﻤﻮﻗﻊ
هذا الموقع مخصّص لعرض نموذج من برنامج توليد وتصريف الأفعال باللغّة العربيّة وتحليلها، ويحتوي على 300 فعل تمّ إختيارهم من القاموس الكامل لتقويم النموذج وعرضه لأغراض تسويقيّة.
القاموس الكامل يحتوي 15400 فعل موزعين على 460 نوعاً من الأفعال وجاهز للإستخدام. وهو قاموس الأفعال الثلاثيّة والرباعيّة: الصحيحة والمعتلّة والمجرّدة والمزيدة والمهموزة، بالإضافة الى خيارات "عين الفعل": فعَل، فعِل، فعُل.
العرضلا يحتاج البرنامج الى تحديد الوزن أو الجذر للأفعال المنوي تصريفها، بل كتابة الفعل فقط. البرنامج يحتوي على قاموس من 15400 فعل، فلا يسمح بتصريف غير هذه الأفعال.
نقدّم في الصفحة الأولى خيار كتابة الفعل بالأحرف العربيّة كما بالأحرف اللاتينيّة، أما خيارات التوليد فهي في أربع صفحات فرعيّة: التصريف الأساسي (ماضي، مضارع، وأمر)، وصفحة التصريف الكامل للمعلوم: المرفوع والمنصوب والمجزوم والمؤكّد، الصفحة الثالثة للمجهول: المرفوع والمنصوب والمجزوم والمؤكد، وكلّها مشكلّة والصفحة الرابعة للتصريف الأساسي بالأحرف اللاتينيّة وبالعربية أيضاً.
ﺣﻮﻝ ﺍﻟﺒﺮﻧﺎﻣﺞتمّ تطوير نظام يوني تك UNITEX ليتلاءم مع متطلبات اللغّة العربيّة. أنواع الأفعال حسب تصنيفنا هي 460، وقاموسنا جاهز للإستخدام الإحترافي، كل فعل يتولد عنه 144 الى 158 شكلاً. و قد تمّ إختبار البرنامج ومطابقته على نصوص مختلفة تحوي 50000 فعل مصرّف.
مجموع الأشكال (المخرجات) 2.43 مليون شكل. أما حجمه plain text فيبلغ 132 ميغابايت في لغة UNICODE و يمكن ضغطه في 4 ميغابايت مما يساعد في تقليص الذاكرة المستخدمة ومضاعفة سرعة التحليل.
جديد مقاربتنا عكس نموذجنا مقاربة علم الصرف التقليديّة التى هي معادلة (الجذر–الوزن) الى (الوزن–الجذر) مع إعطاء الأولوية للوزن على حساب الجذر. هذا التغيير سمح لنا التعرّف على الفعل كمدخل معجمي بشكل أسرع وأدقّ وبالتالي التعرّف على جذره ووزنه، كما قلّص تحديد وبرمجة مئات القواعد الصرفيّة والإملائية التي تربط أشكال الفعل بجذره ووزنه.
ﺣﻮﻝ ﻣﻌﺪّ ﺍﻟﺒﺮﻧﺎﻣﺞأعدّ البرنامج المهندس ألكسي عميد نعمه، وهو باحث في علوم الألسنيّة والبرمجة الحاسوبيّة ومعالجة اللغّات، وتمّ وضع البرنامج للإستثمار وإصداره بالتعاون مع مختبر جامعي LIGM-UPEM-Paris-Est-France في فرنسا.
ﺍﻟﺘﺜﻤﻴﺮ ﻭﺍﻹﺳﺘﺨﺪﺍﻣﺎﺕيُعتبر هذا البرنامج مورداً أساسياً في مجالات عدّة، في تطبيقات تعليم اللغّة العربيّة للناطقين ولغير الناطقين بها، و لتنفيذ تطبيقات وألعاب تعليميّة، ولتدقيق الأفعال في النصوص العربيّة، من ضمنها السوابق واللواحق: التصريف، التشكيل، التطابق مع الضمائر، المذكر والمؤنث، ألخ. للمورد أيضاً القدرة على التحديد بدقّة المدخل المعجمي للفعل، جذره ووزنه والإشتقاقات. كما يمكن إستخدامه في برامج الكتابة للمستخدم اليومي على أجهزة الحاسوب، هو أيضاً جزء من المدقّق الإملائي باللغّة العربيّة. كما يمكن إستخدامه كمورد لتوليد تصريف الأفعال.
في نهاية المرحلة الأولى من المشروع سيتمّ إصدار معجم للمصطلحات عربية يضمّ 60000 كلمة (أفعال وأسماء وأحرف) تتولد في اكثر من 6 مليون شكل ( تصريف، تذكير وتأنيث، جموع التكسير، الخ) والتي يمكن توظيفها في المدقق الإملائي للحواسيب أو التدقيق بعد الترجمة والتصوير الضوئي.
References
Alexis Amid Neme (2011). "A lexicon of Arabic verbs constructed on the basis of Semitic taxonomy and using finite-state transducers". In Proceedings of the International Workshop on Lexical Resources WoLeR, ESSLLI International Workshop on Lexical Resources, Ljubliana, Slovenia.
Alexis Amid Neme, Éric Laporte (April, 2015).
"أتمتة اللغة العربيّة أمام منعطف لبناني- فرنسي" , an interview in Al-Hayat newspaper on Arabic Natural Language Processing at Université Paris-Est.
Alexis Amid Neme, Éric Laporte (2013). “Pattern-and-root inflectional morphology: the Arabic broken plural.” Language Sciences, Vol 40, November 2013, Pages 221-251.
Sébastien Paumier (2011)."UNITEX – User Manual 3.1 Beta", Université Paris-Est Marne-la-Vallée.