Apprendre les langues arabe et française
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
-50%
Le deal à ne pas rater :
WiMiUS S27 – Mini projecteur portable rotatif à 270° Full HD 9000 ...
69.99 € 139.99 €
Voir le deal

Adel Methode Medine

4 participants

Page 113 sur 126 Précédent  1 ... 58 ... 112, 113, 114 ... 119 ... 126  Suivant

Aller en bas

Adel Methode Medine - Page 113 Empty Re: Adel Methode Medine

Message par Adel Medine Mer 27 Jan - 21:43

Salam

Ok je pense comprendre ce que tu veux faire comme algorithme. C'est un mode d'auto-découverte ou de reverse engineering. Voici une reformulation pour s'en assurer :

Algorithme d'auto-découverte des schèmes inclus dans le Coran
1-Extraire tous les mots M du Coran (sous-algorithme d'extraction des mots)
2-Pour chaque mot m dans M alors faire :
2.1-Extraire le schème s du mot m (sous-algorithme d'extraction d'un schème)
2.2-Rechercher et supprimer dans M tous les mots M' ayant le schème s 
2.3-Mettre à jour le dictionnaire schème/mots trouvés
Le sous-algorithme d'extraction des mots : c'est l'algorithme déjà utilisé pour comptabiliser les mots dans chaque sourate. Il reste à améliorer car tu n'en doutes pas il y a des cas particuliers. Exemple avec la lettre fa qui est utilisée comme connecteur de liaison parfois en début de mots mais pas toujours. Ce qui implique de savoir faire la différence entre les 2 pour ne pas supprimer la lettre automatiquement à chaque fois pour ne garder que le mot.Il peut rester des cas indécis même avec des techniques très sophistiquées d'analyses. Là encore pour un traitement automatique à hauteur de 80/20 des cas cela reste un premier objectif envisageable.

sous-algorithme d'extraction d'un schème : c'est un algorithme de base à écrire et pas encore écris bien qu'initier avec le schème F3F3. La complexité est de relever les cas particuliers une fois de plus. Tu as donné un bon exemple avec بِسْمِ  et l'absorption du alif qu'il faut deviner de même qu'il ne s'agit pas aussi d'un tout autre mot comme بِسْمِ . Je me souviens d'un quiproquo récent entre nous au sujet de بلغة  et لغة la encore c'est la particule ب le cas particulier. Bref plusieurs cas comme cela, c'est comme les prépositions il faudrait savoir les reconnaître car il n'y a pas vraiment de schème. Je construis une liste excel d'ailleurs pour finir par les mettre en base de données. Tu as une liste excel des prépositions ou qu'on pourrait partager via google sheet ?

Pour finir, le résultat est un dictionnaire (une liste de pairs clé/valeur) dont la clef est le schème et les valeurs les mots. Tous les mots se retrouvent donc finalement dans le dictionnaire (sauf exception comme les prépositions)Si nous voulons les schèmes rares, il faut classer le dictionnaire par ordre croissant du nombre de valeurs pour une clef ainsi les schèmes rares ressortent en premier c'est à dire ceux avec 1,2,3 etc mots.

Adel Medine

Messages : 643
Points : 655
Date d'inscription : 09/09/2013

Revenir en haut Aller en bas

Adel Methode Medine - Page 113 Empty Re: Adel Methode Medine

Message par منصور Mer 27 Jan - 23:31

Adel Medine a écrit:Exemple avec la lettre fa qui est utilisée comme connecteur de liaison parfois en début de mots mais pas toujours.

Ok, je vois. C'est un très gros travail. Il faudrait créer quantité de filtres pour reconnaître une préposition.

Pour reprendre ta terminologie, M devrait être uniquement les noms se trouvant dans le Qur'an. Et pour ça, la base de données est déjà sur CorpusQuran. Avec cette base de données, on peut construire des algorithmes pour chaque schème.

Il y a également une base de données pour les verbes dans CQ.


Adel Medine a écrit:
sous-algorithme d'extraction d'un schème : c'est un algorithme de base à écrire et pas encore écris bien qu'initier avec le schème F3F3.
Je crois comprendre que cet algorithme était le plus simple à créer. Avec le ا en plus, ça se complique un peu. Est-ce que tu as trouvé des فعفاع ?

Adel Medine a écrit:
Je construis une liste excel d'ailleurs pour finir par les mettre en base de données. Tu as une liste excel des prépositions ou qu'on pourrait partager via google sheet ?

Je n'utilise pas excel ; je sais juste les lire. On m'avait envoyé toutes sortes d'excel, que je n'ai pas gardés. Tu peux poser la question via les emails que je t'ai donnés, en expliquant ton projet et le type de base de données dont tu as besoin. Voici celle des racines dans le Qur'an: http://qurandev.github.io/roots/index.html
Tu as l'adresse de QD (QuranDev). Tu ne peux travailler seul sur ce type de projet, et eux sont spécialiste en programmation comme toi.



Adel Medine a écrit:
Pour finir, le résultat est un dictionnaire (une liste de pairs clé/valeur) dont la clef est le schème et les valeurs les mots.

Si tu ajoutes ton programme à celui de QD, nous aurions un site qui offrirait un dictionnaire unique, un dictionnaire par schème. Actuellement, un dico arabe, c'est un article sur un racine et toutes ses formes/schèmes.

______________________________________________________




Le clavier arabe sur son ordinateur, cliquer ici.
منصور
منصور

Messages : 2808
Points : 3455
Date d'inscription : 26/09/2013

Revenir en haut Aller en bas

Adel Methode Medine - Page 113 Empty Re: Adel Methode Medine

Message par Ibn Nacer Jeu 28 Jan - 20:31

منصور a écrit:
Adel Medine a écrit:Exemple avec la lettre fa qui est utilisée comme connecteur de liaison parfois en début de mots mais pas toujours.

Ok, je vois. C'est un très gros travail. Il faudrait créer quantité de filtres pour reconnaître une préposition.

Pour reprendre ta terminologie, M devrait être uniquement les noms se trouvant dans le Qur'an. Et pour ça, la base de données est déjà sur CorpusQuran. Avec cette base de données, on peut construire des algorithmes pour chaque schème.

Il y a également une base de données pour les verbes dans CQ.
السلام عليكم ورحمة الله وبركاته

Vous abordez de nouveau ce sujet dont je vous avais parlé plusieurs fois, il y a deux cas :

1- analyse de n'importe quel texte :

Il faut un analyseur morphologique comme celui dont je vous avais parlé, il y en a deux au moins sur Internet... Le deuxième est plus complet que le premier.

Ces analyseurs donnent toutes les possibilités pour un mot graphique (token), bien sûr plus il y a de voyelles plus les résultats sont précis.

2- Pour le noble Qur'ân :

On peut évidement utiliser les analyseurs dont je parle en 1 ou bien utiliser le fichier dans lequel il y a l'analyse de tous les mots graphiques (tokens).

On peut télécharger ce fichier dans le site corpus ici : Data download

Ibn Nacer

Messages : 1990
Points : 2234
Date d'inscription : 04/09/2011

Revenir en haut Aller en bas

Adel Methode Medine - Page 113 Empty Re: Adel Methode Medine

Message par Adel Medine Jeu 28 Jan - 21:02

Salam
منصور a écrit:
Adel Medine a écrit:Exemple avec la lettre fa qui est utilisée comme connecteur de liaison parfois en début de mots mais pas toujours.

Ok, je vois. C'est un très gros travail. Il faudrait créer quantité de filtres pour reconnaître une préposition.

Pour reprendre ta terminologie, M devrait être uniquement les noms se trouvant dans le Qur'an. Et pour ça, la base de données est déjà sur CorpusQuran. Avec cette base de données, on peut construire des algorithmes pour chaque schème.

Il y a également une base de données pour les verbes dans CQ.
Aujourd'hui je ne sais pas faire la différence entre un nom et un verbe. Sauf exception, par exemple un mot qui termine par ة est un nom. Disons aussi que je peux reconnaître une liste de prépositions ou encore les pronoms personnels car cela se trouve sur le Net sous différents formats de fichiers.

Il faudrait voir pour CQ ce qui est possible de récupérer comme formats de fichiers pour leurs données.(normalement toutes les bases de données permettent une extraction au format excel ou texte ou SQL) On pourrait commencer avec un fichier pour les noms et les verbes en format texte ou excel ou sql. Cela facilitera la recherche pour nous ici pour la suite car tu as bien compris tout le "bruit" qu'il y a autour des mots.
منصور a écrit:
Adel Medine a écrit:
sous-algorithme d'extraction d'un schème : c'est un algorithme de base à écrire et pas encore écris bien qu'initier avec le schème F3F3.
Je crois comprendre que cet algorithme était le plus simple à créer. Avec le ا en plus, ça se complique un peu. Est-ce que tu as trouvé des فعفاع ?
Je n'ai pas trouvé pour فعفاع mais referais un autre test après un petit nettoyage du code source.
C'est un algorithme simple en apparence et qui à la particularité que nombreux autres algorithmes s'appuieront dessus. Et il y a aussi un besoin de créer des filtres pour reconnaître certains cas particuliers. 
Tu ne peux travailler seul sur ce type de projet, et eux sont spécialiste en programmation comme toi.
Il faut repréciser le projet duquel tu parles car nous ne parlons peut être pas de la même chose. Après, ce sont plus des spécialistes en arabe ou en linguistiques ou alors en programmation spécialisée qui nous intéressent et encore mieux les 2 ! Sans compter les autres spécialistes des sciences de l'éducation et de la communication, de la publicité et du marketing etc
Si tu ajoutes ton programme à celui de QD, nous aurions un site qui offrirait un dictionnaire unique, un dictionnaire par schème. Actuellement, un dico arabe, c'est un article sur un racine et toutes ses formes/schèmes.
Mes programmes traitent n'importe quelle chaîne de caractères arabes. Ces programmes pourront s'intégrer dans des sites de différentes façons. Il existe ce qu'on appelle des wrappers de programme quand on veut utiliser dans son programme d'autres programmes. Sinon le mot clé est Web Service.

Adel Medine

Messages : 643
Points : 655
Date d'inscription : 09/09/2013

Revenir en haut Aller en bas

Adel Methode Medine - Page 113 Empty Re: Adel Methode Medine

Message par Ibn Nacer Jeu 28 Jan - 21:08

Adel Medine a écrit:

Algorithme d'auto-découverte des schèmes inclus dans le Coran
1-Extraire tous les mots M du Coran (sous-algorithme d'extraction des mots)
2-Pour chaque mot m dans M alors faire :
2.1-Extraire le schème s du mot m (sous-algorithme d'extraction d'un schème)
2.2-Rechercher et supprimer dans M tous les mots M' ayant le schème s 
2.3-Mettre à jour le dictionnaire schème/mots trouvés
Le sous-algorithme d'extraction des mots : c'est l'algorithme déjà utilisé pour comptabiliser les mots dans chaque sourate. Il reste à améliorer car tu n'en doutes pas il y a des cas particuliers. Exemple avec la lettre fa qui est utilisée comme connecteur de liaison parfois en début de mots mais pas toujours. Ce qui implique de savoir faire la différence entre les 2 pour ne pas supprimer la lettre automatiquement à chaque fois pour ne garder que le mot.Il peut rester des cas indécis même avec des techniques très sophistiquées d'analyses. Là encore pour un traitement automatique à hauteur de 80/20 des cas cela reste un premier objectif envisageable.

sous-algorithme d'extraction d'un schème : c'est un algorithme de base à écrire et pas encore écris bien qu'initier avec le schème F3F3. La complexité est de relever les cas particuliers une fois de plus. Tu as donné un bon exemple avec بِسْمِ  et l'absorption du alif qu'il faut deviner de même qu'il ne s'agit pas aussi d'un tout autre mot comme بِسْمِ . Je me souviens d'un quiproquo récent entre nous au sujet de بلغة  et لغة la encore c'est la particule ب le cas particulier. Bref plusieurs cas comme cela, c'est comme les prépositions il faudrait savoir les reconnaître car il n'y a pas vraiment de schème. Je construis une liste excel d'ailleurs pour finir par les mettre en base de données. Tu as une liste excel des prépositions ou qu'on pourrait partager via google sheet ?

Pour finir, le résultat est un dictionnaire (une liste de pairs clé/valeur) dont la clef est le schème et les valeurs les mots. Tous les mots se retrouvent donc finalement dans le dictionnaire (sauf exception comme les prépositions)Si nous voulons les schèmes rares, il faut classer le dictionnaire par ordre croissant du nombre de valeurs pour une clef ainsi les schèmes rares ressortent en premier c'est à dire ceux avec 1,2,3 etc mots.
السلام عليكم ورحمة الله وبركاته

Ceci a déjà été fait et pas seulement pour quelques schèmes mais pour tous les mots graphiques (tokens).

Et pour les listes dont tu parles il y en a plusieurs sur Internet, on en avait déjà parlé, il y a même des thèses qui donnent toutes les combinaisons possibles, tous les préfixes et suffixes... Avec cela et les bases de données que je vous avais indiqués et sur lequel on avait travaillé, Il y a de quoi faire son propre analyseur morphologique.

Je parle d'un "vrai" analyseur morphologique et non de quelque chose qui donne des résultats approximatifs et qui peut louper quelques cas ou faire des erreurs...

Ibn Nacer

Messages : 1990
Points : 2234
Date d'inscription : 04/09/2011

Revenir en haut Aller en bas

Adel Methode Medine - Page 113 Empty Re: Adel Methode Medine

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Page 113 sur 126 Précédent  1 ... 58 ... 112, 113, 114 ... 119 ... 126  Suivant

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum