WEBREVIEW
Accueil > Informatique, science de l’information et bibliothéconomie > RIST > Volume 20 > Numéro 02 > Numéro 02

Numéro 02

Articles de cette rubrique


A fully inflected Arabic verb resource constructed constructed from a lexicon of lemmas by using finite-state transducers

Nous décrivons un lexique complètement fléchi de 2,5 millions de formes verbales générées par des transducteurs à états finis. Le lexique est constitué de 15 400 entrées ou lemmes. Le lexique de ces verbes arabes est construit sur la base des schèmes de la grammaire traditionnelle. Cette ressource verbale est ensuite utilisée par un logiciel d’annotation morphologique du texte écrit en arabe. Un ajustement de l’implémentation de ces transducteurs a été spécialement crée afin de traiter les langues sémitiques. Ce système est également adapté pour générer des formes fléchies. Les ressources linguistiques peuvent être facilement mis-à-jour. Nous proposons une taxonomie de la flexion verbale qui augmente la lisibilité du lexique et la maintenabilité pour les locuteurs et linguistes arabes. La grammaire traditionnelle définit des classes de flexion verbales en utilisant des classes de schèmes et des classes de racines, liées à la nature de chacune des consonnes d’une racine trilitères. Les classes de schèmes verbaux sont clairement définies alors que les classes de racines sont complexes. Dans notre taxonomie, les classes de schèmes traditionnelles sont réutilisées et les classes de racines sont redéfinies de façon plus simple. Notre taxonomie fournit un schéma de codage simple des variations flexionnelles et des ajustements orthographiques dus à l’assimilation ou à l’agglutination d’une particule grammaticale. Nous avons testé et évalué notre ressource sur 10 000 occurrences voyellées de verbes extraites du corpus Nemlar et nous l’avons comparé à la ressource de Buckwalter. La couverture lexicale est de 99,9%. Un ordinateur portable a besoin de deux minutes pour générer et compresser les 2,5 millions de formes fléchies en 4 Méga-octets pour une recherche rapide. L’analyse d’un verbe prend 0,5 milliseconde.



PHARAS : Une plate-forme d’analyse basée sur le formalisme HPSG pour l’Arabe standard : Développements récents et perspectives

Le formalisme HPSG connaît depuis plusieurs années un essor remarquable dans le domaine du TALN en général, et l’analyse de la syntaxe en particulier. Nous travaillons sur le formalisme HPSG sur le double aspect modélisation/implémentation en vue de son application sur l’arabe standard. Dans cet article, nous présentons les récents développements de notre projet PHARAS (Plateforme d’analyse basée sur le formalisme Hpsg pour l’analyse de l’ARAbe Standard). Il s’agit d’un outil intégré qui offre toute la chaîne d’analyse d’un texte en arabe, voyellé ou non, dans le but de produire son analyse en format HPSG.



Une approche de désambiguïsation morpho_lexicale évaluée sur l’analyseur morphologique Alkhalil

Hors contexte, la plupart des mots ont plusieurs sens et plusieurs fonctions. La désambiguïsation lexicale, par exemple, consiste à choisir la bonne signification d’un mot polysémique dans un contexte donné. Plusieurs méthodes et approches existent à tous les niveaux de désambigüisation : morphologique [7], lexicale [3], sémantique [4] pour le TAL (traitement automatique des langues). Mais pour la langue arabe l’ambigüité s’accentue par la non diacritisation des mots. Afin de réduire considérablement ce taux d’ambigüité, nous proposons dans cet article une approche de désambigüisation qui se fonde sur le choix des bonnes diacritiques lors des différentes analyses. Cette approche combine une approche linguistique à une approche multicritère d’aide à la décision. Cette combinaison peut être considérée comme une alternative de choix pour remédier au problème de l’ambigüité morpho_lexicale quelque soit le taux de diacritiques du texte traité. Pour son évaluation, nous avons essayé la désambigüisation de l’analyseur morphologique on-line Alkhalil (L’approche que nous proposons peut être expérimentée sur n’importe quel autre analyseur morphologique da la langue arabe). Alkhalil Morpho Sys, Version 1.3, 2011, un open source http://www.alecso.org.tn/ index.php ?option=com_content&task=view&id=1302&Itemid=956&lang=a . Nous avons obtenu des résultats encourageants avec un F-Measure de plus de 80%.



Extraction des relations sémantiques à partir du Wiktionnaire Arabe

Les ressources linguistiques électroniques jouent un rôle très important en traitement automatique du langage naturel.Elles sont utilisées dans plusieurs applications linguistiques notamment la traduction automatique, l’indexation des textes, le résumé automatique…etc.L’objectif de cet article est de créer une base lexicale pour la langue Arabe qui ne dispose pas beaucoup de ces ressources. Nous exploitons les ressources Web comme Wikipédia et le Wiktionnaire qui sont devenues des sources intéressantes pour l’extraction d’information.Dans ce travail, nous cherchons à extraire automatiquement des relations sémantiques notamment les synonymes et les antonymes à partir du Wiktionnaire Arabe.



Transcription des noms arabes en écriture latine

Dans cet article, nous nous intéressons à la translittération des noms arabes de leur écriture originale vers l’écriture latine. Ce type de technique est nécessaire pour la recherche d’information interlingue afin de renvoyer des résultats pertinents. Le principe de notre approche est de proposer toutes les variantes orthographiques d’un nom arabe et non pas la meilleure solution. Nous avons montré l’intérêt de notre approche par une série d’expérimentations et en comptant à chaque fois le nombre de résultats obtenues par des moteurs de recherche après la transcription via notre technique.



Topic Modeling of Phonetic Latin-Spelled Arabic for the Relative Analysis of Genre-Dependent and Dialect-Dependent Variation

Nous présenterons un système de collecte et d’analyse de données éventuellement utilisé pour analyser les contributions relatives des variations dépendantes au dialecte dans la sphère lexicale d’un texte semblable à l’écriture arabe. De ce fait, nous aurons recours à l’allocation de Dirichlet latente (LDA), une méthode de modélisation générative probabiliste afin d’analyser la phonétique des termes arabes écrits en caractère latin extraits d’un corpus de discussion en ligne. Ce corpus produit différents choix de mots et différentes relations conceptuelles basée sur le dialecte et qui par conséquent contribue à la reproduction graphique des termes arabes issus du dialecte malgré la large distinction existante entre l’arabe écrit standard et les nombreux dialectes arabes.



Matrice racine-schème pour le verbe de la langue arabe

Cet article présente une base de données pour le verbe de la langue arabe sous forme d’une matrice dont l’en-tête de lignes contient les schèmes de verbes et l’en-tête de colonnes contient une liste exhaustive de toute racines reconnus dans la littérature arabe. L’exhaustivité de cette liste, qui est le point de force de notre base de données, est due au fait que nous avons commencé par la génération de toutes les combinaisons possibles à partir de l’alphabet de la langue arabe, ensuite nous avons supprimé celles qui ne sont pas reconnues dans la littérature. L’intersection de chaque ligne et colonne contient un code indiquant si la racine et le schème sont compatibles et référant à une liste de caractéristiques morpho-syntaxiques du verbe engendré par cette compatibilité.



Comparative Study of hybrid models for robust speaker recognition task

Cet article traite du cas du système de vérification des textes de locuteurs indépendants sur la base des chiffres énoncés en langues arabes dans un environnement réel. De ce fait, nous avons adopté les coefficients cepstraux de fréquence Mel (MFCC) comme paramètres caractéristiques du discours, le modèle de mélange gaussien (GMM) pour modeler les caractéristiques du discours extrait et avons testés les machines vecteurs de support (SVM). Les tests ont été menés sur la base de données ARADIGIT à différents niveaux du rapport signal sur bruit (SNR) et sous deux conditions bruyantes émises par la base de données NOISEX-92. Les résultats obtenus démontrent que le modèle GMM-SVM surpasse le modèle GMM-UBM plus particulièrement dans un environnement bruyant.



نظام تصريف الأفعال في اللغة العربية

يطرح تصريف الأفعال في اللغة العربية إشكالات عديدة ترتبط بتنوع تصنيفاتها. ويكمن هذا التنوع في التغييرات التي تطرأ على الأفعال لدى تصريفها مما ينتج عنه عدم قدرة المتعلمين –في أغلب الأحيان- على تصريف العديد من الأفعال في جميع الصيغ والأحوال. وسنقوم في هذه الورقة، بتقديم الصيغة الأولى للمصرف الآلي يتميز بالدقة ،Java للأفعال العربية الذي تم إنجازه بمعهد الدراسات والأبحاث للتعريب, وهو برنامج مكتوب بلغة وسهولة الاستعمال، ويغني عن كتب قواعد تصريف الفعل العربي. كما يعتمد هذا المصرف على الجدع كدخلة لتصريفه عوض الجدر الذي تعتمده معظم المصرفات الأخرى. وسنقتصر في هذه الورقة، على القواعد تلك التي تم تطبيقها في عملنا الحالي، بصيغة مماثلة لطريقة معالجتها بالحاسوب دون الخوض في طروحات النحاة العرب القدماء كل على حدة.



Moses اختبار أداء نظام الترجمة الآلية الاحصائية

المكيف لدعم الثنائية اللغوية إنجليزي-عربي

تعد الترجمة الآلية الإحصائية فرعا من فروع الحوسبة اللغوية والتي تصنف بدورها ضمن فروع الذكاء الاصطناعي وقد انصب اهتمامنا في إطار هذا البحث على تقريب المسافة بين اللغة وأحدث طرق المعالجة المكرسة للترجمة الآلية. فمن جهة، تعترف هذه الأخيرة ضمنيا بأن الترجمة مهارة بشرية كونها تستعمل متونا لغوية أحادية وثنائية اللغة مترجمة من قبل مترجمين محترفين. إذ تستعمل المتون الأحادية اللغة لتدريب نماذج اللغة والمتون الثنائية اللغة لتدريب نماذج الترجمة. ومن جهة أخرى، تستغل الترجمة الآلية الاحصائية القدرات الفائقة للحاسوب للمعالجة من خلال ادماج الطرق الاحصائية لاختيار أحسن ترجمة. وقد تناول هذا البحث المفاهيم الأساسية، إضافة إلى مختلف مقاربات الترجمة الآلية مع التركيز على المقاربة الإحصائية التي شكلت المحور الرئيسي للبحث، مرورا المصمم أصلا للترجمة من اللغة الفرنسية إلى اللغة الإنجليزية decoder Moses بعرض نموذج موزس لفك التشفير والذي قمنا بتكييفه ليتمكن من الترجمة من اللغة الانجليزية إلى اللغة العربية. ثم وصولا إلى تقييم نموذج الترجمة المكيف لدعم الثنائية اللغوية (إنجليزية- عربية). ومن ثم النتائج التطبيقية التي كانت مشجعة ومن ثم انتهى البحث إلى خلاصة تتضمن مجموعة من النتائج والاقتراحات.



| info visites 9143698

Suivre la vie du site fr  Suivre la vie du site Informatique, science de l’information et bibliothéconomie  Suivre la vie du site RIST  Suivre la vie du site Volume 20  Suivre la vie du site Numéro 02   ?

Creative Commons License