Adel Methode Medine
Apprendre les langues arabe et française :: Étude / دراسة / Study / Estudio :: Ouvre ton cahier d'élève / فتح دفتر الطالب / Open your student notebook / Abre tu cuaderno de estudiante
Page 113 sur 126 • 1 ... 58 ... 112, 113, 114 ... 119 ... 126
Re: Adel Methode Medine
Ok je pense comprendre ce que tu veux faire comme algorithme. C'est un mode d'auto-découverte ou de reverse engineering. Voici une reformulation pour s'en assurer :
Algorithme d'auto-découverte des schèmes inclus dans le Coran
Le sous-algorithme d'extraction des mots : c'est l'algorithme déjà utilisé pour comptabiliser les mots dans chaque sourate. Il reste à améliorer car tu n'en doutes pas il y a des cas particuliers. Exemple avec la lettre fa qui est utilisée comme connecteur de liaison parfois en début de mots mais pas toujours. Ce qui implique de savoir faire la différence entre les 2 pour ne pas supprimer la lettre automatiquement à chaque fois pour ne garder que le mot.Il peut rester des cas indécis même avec des techniques très sophistiquées d'analyses. Là encore pour un traitement automatique à hauteur de 80/20 des cas cela reste un premier objectif envisageable.1-Extraire tous les mots M du Coran (sous-algorithme d'extraction des mots)
2-Pour chaque mot m dans M alors faire :
2.1-Extraire le schème s du mot m (sous-algorithme d'extraction d'un schème)
2.2-Rechercher et supprimer dans M tous les mots M' ayant le schème s
2.3-Mettre à jour le dictionnaire schème/mots trouvés
sous-algorithme d'extraction d'un schème : c'est un algorithme de base à écrire et pas encore écris bien qu'initier avec le schème F3F3. La complexité est de relever les cas particuliers une fois de plus. Tu as donné un bon exemple avec بِسْمِ et l'absorption du alif qu'il faut deviner de même qu'il ne s'agit pas aussi d'un tout autre mot comme بِسْمِ . Je me souviens d'un quiproquo récent entre nous au sujet de بلغة et لغة la encore c'est la particule ب le cas particulier. Bref plusieurs cas comme cela, c'est comme les prépositions il faudrait savoir les reconnaître car il n'y a pas vraiment de schème. Je construis une liste excel d'ailleurs pour finir par les mettre en base de données. Tu as une liste excel des prépositions ou qu'on pourrait partager via google sheet ?
Pour finir, le résultat est un dictionnaire (une liste de pairs clé/valeur) dont la clef est le schème et les valeurs les mots. Tous les mots se retrouvent donc finalement dans le dictionnaire (sauf exception comme les prépositions)Si nous voulons les schèmes rares, il faut classer le dictionnaire par ordre croissant du nombre de valeurs pour une clef ainsi les schèmes rares ressortent en premier c'est à dire ceux avec 1,2,3 etc mots.
Adel Medine- Messages : 643
Points : 655
Date d'inscription : 09/09/2013
Re: Adel Methode Medine
Adel Medine a écrit:Exemple avec la lettre fa qui est utilisée comme connecteur de liaison parfois en début de mots mais pas toujours.
Ok, je vois. C'est un très gros travail. Il faudrait créer quantité de filtres pour reconnaître une préposition.
Pour reprendre ta terminologie, M devrait être uniquement les noms se trouvant dans le Qur'an. Et pour ça, la base de données est déjà sur CorpusQuran. Avec cette base de données, on peut construire des algorithmes pour chaque schème.
Il y a également une base de données pour les verbes dans CQ.
Je crois comprendre que cet algorithme était le plus simple à créer. Avec le ا en plus, ça se complique un peu. Est-ce que tu as trouvé des فعفاع ?Adel Medine a écrit:
sous-algorithme d'extraction d'un schème : c'est un algorithme de base à écrire et pas encore écris bien qu'initier avec le schème F3F3.
Adel Medine a écrit:
Je construis une liste excel d'ailleurs pour finir par les mettre en base de données. Tu as une liste excel des prépositions ou qu'on pourrait partager via google sheet ?
Je n'utilise pas excel ; je sais juste les lire. On m'avait envoyé toutes sortes d'excel, que je n'ai pas gardés. Tu peux poser la question via les emails que je t'ai donnés, en expliquant ton projet et le type de base de données dont tu as besoin. Voici celle des racines dans le Qur'an: http://qurandev.github.io/roots/index.html
Tu as l'adresse de QD (QuranDev). Tu ne peux travailler seul sur ce type de projet, et eux sont spécialiste en programmation comme toi.
Adel Medine a écrit:
Pour finir, le résultat est un dictionnaire (une liste de pairs clé/valeur) dont la clef est le schème et les valeurs les mots.
Si tu ajoutes ton programme à celui de QD, nous aurions un site qui offrirait un dictionnaire unique, un dictionnaire par schème. Actuellement, un dico arabe, c'est un article sur un racine et toutes ses formes/schèmes.
______________________________________________________
Le clavier arabe sur son ordinateur, cliquer ici.
منصور- Messages : 2808
Points : 3455
Date d'inscription : 26/09/2013
Re: Adel Methode Medine
السلام عليكم ورحمة الله وبركاتهمنصور a écrit:Adel Medine a écrit:Exemple avec la lettre fa qui est utilisée comme connecteur de liaison parfois en début de mots mais pas toujours.
Ok, je vois. C'est un très gros travail. Il faudrait créer quantité de filtres pour reconnaître une préposition.
Pour reprendre ta terminologie, M devrait être uniquement les noms se trouvant dans le Qur'an. Et pour ça, la base de données est déjà sur CorpusQuran. Avec cette base de données, on peut construire des algorithmes pour chaque schème.
Il y a également une base de données pour les verbes dans CQ.
Vous abordez de nouveau ce sujet dont je vous avais parlé plusieurs fois, il y a deux cas :
1- analyse de n'importe quel texte :
Il faut un analyseur morphologique comme celui dont je vous avais parlé, il y en a deux au moins sur Internet... Le deuxième est plus complet que le premier.
Ces analyseurs donnent toutes les possibilités pour un mot graphique (token), bien sûr plus il y a de voyelles plus les résultats sont précis.
2- Pour le noble Qur'ân :
On peut évidement utiliser les analyseurs dont je parle en 1 ou bien utiliser le fichier dans lequel il y a l'analyse de tous les mots graphiques (tokens).
On peut télécharger ce fichier dans le site corpus ici : Data download
Ibn Nacer- Messages : 1990
Points : 2234
Date d'inscription : 04/09/2011
Re: Adel Methode Medine
Aujourd'hui je ne sais pas faire la différence entre un nom et un verbe. Sauf exception, par exemple un mot qui termine par ة est un nom. Disons aussi que je peux reconnaître une liste de prépositions ou encore les pronoms personnels car cela se trouve sur le Net sous différents formats de fichiers.منصور a écrit:Adel Medine a écrit:Exemple avec la lettre fa qui est utilisée comme connecteur de liaison parfois en début de mots mais pas toujours.
Ok, je vois. C'est un très gros travail. Il faudrait créer quantité de filtres pour reconnaître une préposition.
Pour reprendre ta terminologie, M devrait être uniquement les noms se trouvant dans le Qur'an. Et pour ça, la base de données est déjà sur CorpusQuran. Avec cette base de données, on peut construire des algorithmes pour chaque schème.
Il y a également une base de données pour les verbes dans CQ.
Il faudrait voir pour CQ ce qui est possible de récupérer comme formats de fichiers pour leurs données.(normalement toutes les bases de données permettent une extraction au format excel ou texte ou SQL) On pourrait commencer avec un fichier pour les noms et les verbes en format texte ou excel ou sql. Cela facilitera la recherche pour nous ici pour la suite car tu as bien compris tout le "bruit" qu'il y a autour des mots.
Je n'ai pas trouvé pour فعفاع mais referais un autre test après un petit nettoyage du code source.منصور a écrit:Je crois comprendre que cet algorithme était le plus simple à créer. Avec le ا en plus, ça se complique un peu. Est-ce que tu as trouvé des فعفاع ?Adel Medine a écrit:
sous-algorithme d'extraction d'un schème : c'est un algorithme de base à écrire et pas encore écris bien qu'initier avec le schème F3F3.
C'est un algorithme simple en apparence et qui à la particularité que nombreux autres algorithmes s'appuieront dessus. Et il y a aussi un besoin de créer des filtres pour reconnaître certains cas particuliers.
Il faut repréciser le projet duquel tu parles car nous ne parlons peut être pas de la même chose. Après, ce sont plus des spécialistes en arabe ou en linguistiques ou alors en programmation spécialisée qui nous intéressent et encore mieux les 2 ! Sans compter les autres spécialistes des sciences de l'éducation et de la communication, de la publicité et du marketing etcTu ne peux travailler seul sur ce type de projet, et eux sont spécialiste en programmation comme toi.
Mes programmes traitent n'importe quelle chaîne de caractères arabes. Ces programmes pourront s'intégrer dans des sites de différentes façons. Il existe ce qu'on appelle des wrappers de programme quand on veut utiliser dans son programme d'autres programmes. Sinon le mot clé est Web Service.Si tu ajoutes ton programme à celui de QD, nous aurions un site qui offrirait un dictionnaire unique, un dictionnaire par schème. Actuellement, un dico arabe, c'est un article sur un racine et toutes ses formes/schèmes.
Adel Medine- Messages : 643
Points : 655
Date d'inscription : 09/09/2013
Re: Adel Methode Medine
السلام عليكم ورحمة الله وبركاتهAdel Medine a écrit:
Algorithme d'auto-découverte des schèmes inclus dans le CoranLe sous-algorithme d'extraction des mots : c'est l'algorithme déjà utilisé pour comptabiliser les mots dans chaque sourate. Il reste à améliorer car tu n'en doutes pas il y a des cas particuliers. Exemple avec la lettre fa qui est utilisée comme connecteur de liaison parfois en début de mots mais pas toujours. Ce qui implique de savoir faire la différence entre les 2 pour ne pas supprimer la lettre automatiquement à chaque fois pour ne garder que le mot.Il peut rester des cas indécis même avec des techniques très sophistiquées d'analyses. Là encore pour un traitement automatique à hauteur de 80/20 des cas cela reste un premier objectif envisageable.1-Extraire tous les mots M du Coran (sous-algorithme d'extraction des mots)
2-Pour chaque mot m dans M alors faire :
2.1-Extraire le schème s du mot m (sous-algorithme d'extraction d'un schème)
2.2-Rechercher et supprimer dans M tous les mots M' ayant le schème s
2.3-Mettre à jour le dictionnaire schème/mots trouvés
sous-algorithme d'extraction d'un schème : c'est un algorithme de base à écrire et pas encore écris bien qu'initier avec le schème F3F3. La complexité est de relever les cas particuliers une fois de plus. Tu as donné un bon exemple avec بِسْمِ et l'absorption du alif qu'il faut deviner de même qu'il ne s'agit pas aussi d'un tout autre mot comme بِسْمِ . Je me souviens d'un quiproquo récent entre nous au sujet de بلغة et لغة la encore c'est la particule ب le cas particulier. Bref plusieurs cas comme cela, c'est comme les prépositions il faudrait savoir les reconnaître car il n'y a pas vraiment de schème. Je construis une liste excel d'ailleurs pour finir par les mettre en base de données. Tu as une liste excel des prépositions ou qu'on pourrait partager via google sheet ?
Pour finir, le résultat est un dictionnaire (une liste de pairs clé/valeur) dont la clef est le schème et les valeurs les mots. Tous les mots se retrouvent donc finalement dans le dictionnaire (sauf exception comme les prépositions)Si nous voulons les schèmes rares, il faut classer le dictionnaire par ordre croissant du nombre de valeurs pour une clef ainsi les schèmes rares ressortent en premier c'est à dire ceux avec 1,2,3 etc mots.
Ceci a déjà été fait et pas seulement pour quelques schèmes mais pour tous les mots graphiques (tokens).
Et pour les listes dont tu parles il y en a plusieurs sur Internet, on en avait déjà parlé, il y a même des thèses qui donnent toutes les combinaisons possibles, tous les préfixes et suffixes... Avec cela et les bases de données que je vous avais indiqués et sur lequel on avait travaillé, Il y a de quoi faire son propre analyseur morphologique.
Je parle d'un "vrai" analyseur morphologique et non de quelque chose qui donne des résultats approximatifs et qui peut louper quelques cas ou faire des erreurs...
Ibn Nacer- Messages : 1990
Points : 2234
Date d'inscription : 04/09/2011
Page 113 sur 126 • 1 ... 58 ... 112, 113, 114 ... 119 ... 126
![-](https://2img.net/i/empty.gif)
» D'autres cours audios sur la méthode de Médine...
» Un excellent site, très complet sur la méthode de Médine.
» Enseigner le français : approche et méthode
» Florrrentina
Apprendre les langues arabe et française :: Étude / دراسة / Study / Estudio :: Ouvre ton cahier d'élève / فتح دفتر الطالب / Open your student notebook / Abre tu cuaderno de estudiante
|
|