Séminaire - Séance 01
Argumentaire[edit | edit source]
« L’enjeu : expliciter, voire même formaliser, les principales dimensions de la production de sens, de connaissance et d’autorité afin d’avancer vers une intelligence collective réflexive de la communauté des chercheurs. Pour ce faire, il faudra utiliser le mieux possible les instruments qui nous sont proposés par le médium algorithmique… et même en inventer de nouveaux. »
Le séminaire explorera notamment les moyens de rendre transparents...
- la sémantique des énoncés au niveau linguistique
- les opérations d’adressage dans la communication
- les opérations de référence (identification et catégorisation des données)
- les jeux d’autorité et de croyance
Pour préparer la séance, Pierre Levy nous livre ce texte récent : «Vers une mutation epistémologique des sciences humaines»
Archives[edit | edit source]
- Texte de préparation : «Vers une mutation épistémologique des sciences humaines», de Pierre Levy (novembre 2018)
- vidéo (Youtube)
- prise de note (CodiMd) ou voir le compte-rendu ci-dessous
- présentation (pptx)
Compte-rendu de la séance[edit | edit source]
Introduction : Un programme épistémologico-politique[edit | edit source]
Idée issue des lumière est la suivante: la production et la diffusion des connaissances sont des phénomènes et processus positifs.
Il s’agit de définir le problème et le contexte de l’usage savant de l’internet, de la production scientifique à l’ère numérique, puis de proposer une 1ere analyse du problème qui montrera que le problème est soluble.
Humanisme : référence à Erasme, début de l’imprimerie
Nous sommes aujourd’hui à une seconde époque de l’humanisme: ce nouvel humanisme doit être à la hauteur du nouvel environnement technique et l’utiliser dans la poursuite d’un développement de la pensée critique et de la production scientifique de qualité soit d’Augmenter l’intelligence collective. C’est la communauté des chercheurs en sciences humaines et sociales qui va rendre cela possible.
Il s’agit de mettre en transparence les opérations de la construction de la transparence pour observer Comment l’autorité, la croyance sont produites ?
La transparence est donc la condition de la calculabilité (manipulable par des algorithmes), condition de la réfléxivilité à petite et grande échelle.
Est-ce qu’on peut s’observer soi-même en train de produire de la connaissance? N’est-ce pas la condition justement pour en produire mieux ?
Figure d’Alde Manuce, imprimeur, savant de la Renaissance, inventeur de l’italique: un livre dans la main gauche, un like dans la main droite
2 dimensions dans le programme : épistémologique et politique (à partir d’un diagnostic des SHS aujourd’hui)
Epistémologique :
- Faiblesses :
- fragmentation des SHS par rapport aux sciences de la nature.
- Défaut de formalisation (traitement que si formalisation)
- les théories ne sont pas testables.
- Forces :
- gestion de la connaissance relativement harmonieuse dans les sciences humaines
- numérisation des archives
- toutes les activités humaines produisent des données
- puissance de calcul pour traiter ces données
- nouveaux outils de collaboration
Politique :
Il ne s’agit pas d’une révolution au sens d’un engagement dans la vocation politique.
Il s’agit de la question de la croyance et de l’autorité : c’est la question politique interne aux sciences humaines, avec une grande portée sociale
Pour aborder la question de l’autorité dans l’environnement numérique, on peut reprendre l’idée de l’éditorialisation de MVR:
Éditorialisation: comment ça se produit ? Essayons de comprendre comment se produisent l’autorité et la croyance ?
Utiliser toute la puissance d’analyse donnée par les nouveaux outils et méthodes pour comprendre le phénomène et le processus de croyance.
Les lieux communs de l’émancipation[edit | edit source]
- Maximiser les communs de la connaissance
- Ouvrir les données, modèles, logiciels : quel estle modèle qui fait fonctionner la chose ?
- Transparence réciproque et tournée vers la réflexion au maximum : qui fait quoi ? Doit servir la réflexion afin de comprendre un processus.
- Souveraineté des individus sur les données qu’ils produisent et qui les concernent : il faut ménager ??
- Données ouvertes et FAIR
- Modèles de fonctionnement
- Émancipation
Modélisation pragmatique des actes de création de connaissance[edit | edit source]
- Contribuer à l’analyse du problème, il faut produire un grand effort scientifique collectif pour rendre cela possible.
- Modéliser les actes de création de connaissances
Austin : l’un des premiers à avoir analyser les actes de langage, la pratique linguistico-symbolique. Conceptualisation.
Présupposé :
La production de connaissance n’est pas la découverte de la connaissance qui est déjà là, c’est une production soit un acte.
L’entreprise se fondera sur l’utilisation des outils de la pragmatique.
Chaque fois qu’on a une démarche scientifique, indication des limites (humilité intellectuelle).
Après les analyses de Michael Polany : oeuvre du XXe siècle, a montré qu’il y avait une dimension d’implicite dans la connaissance.
Il faut savoir que ça n’a pas de fin, on n’arrive jamais au bout de la connaissance, il y a toujours une réserve d’obscurité, de l’inconscient.
Si on arrive à de la théorie, à des récits ou quelque chose d’intermédiaire, c’est toujours hypothétique. Toutes les théories sont hypothétiques et ce qui nous intéresse c’est une variété, une créativité mais qui reste le plus transparent possible.
Il ne s’agit pas de trouver ou de chercher la vérité vraie.
Trois les types d’actes :
- acte locutoire : on dit quelque chose en suivant des règles linguistique,
- acte illocutoire : jeux de communication, adressage, participation au langage et de référence
- acte perlocutoire : résultat effectif, au fur et à mesure que le temps passe et que le sens se déroule.
L’acte locutoire, c’est dans une langue qui est celle des métadonnées sémantiques. On qualifie ces données avec des métadonnées sémantiques. On dit ce qu’on en pense. Cela doit se dire avec des métadonnées.
Les actes illocutoires sont des jeux de communication, d’adressage à l’intérieur de la communauté scientifique: écrire un article, lire, évaluer un article, poser une candidature, citer, être cité… Tous les actes conversationnels classiques et les rôles correspondants
Les actes perlocutoires sont les résultats de tous les actes locutoires et illocutoires dans pleins de jeux de langage, or on ne les contrôle pas. Des choses en émergent : ce sont l’autorité et la croyance.
IEML[edit | edit source]
Langue à la sémantique calculable comme système de coordonnées sémantique.
Proposition qui part du fait que le langage documentaire que PL propose est une langue à la sémantique calculable. Système de métadonnées sémantique, ça va résoudre beaucoup de problème, notamment celui de la communication internationale entre les chercheurs.
À destination des sciences humaines et sociales.
Saussure
La langue est un système symbolique conventionnele : pas de relations autre que conventionnelles entre le signifié et le signifant.
Dimension différentielle : les phonèmes (signifiant) n’existent que par relation les uns aux autres, les phonèmes se distinguent les uns par les autres.
Même chose au niveau du signifié. le sens émerge au niveau de ses différences.
Chomsky
Dimension syntaxique dans la langue. Si on arrive à la formaliser, on peut obtenir un langage régulier soit mathématiquement calculable.
Construit un langage régulier (calculable sur le plan syntaxique) et puisque les langues sont conventionnelles : correspondance des relations syntaxiques entre les éléments de la langue et sémantiques (parallélisme signifiant/signifié)
question: la syntaxe et la sémantique ont deux fonctions différentes, donc comment fonctionne ce paralélisme, on aurait plutôt un orthogonalisme entre syntaxe et sémantique…?
Alignement du sens sur le code matériel pour que les ordinateurs puissent saisir la dimension sémantique, et non plus seulement matérielle.
Un ensemble d’ontologies : avec possibilité de faire émerger des ontologies de manière semi-automatique d’un corpus.
Montrer l’ontologie implicite dans un corpus.
Grammaire IEML[edit | edit source]
Lettres sont combinées pour donner des sèmes élémentaires (on peut les considérer commes les racines des mots.)
Relation d’imbrication réciproque (construction par couches)
Les couches supérieures contiennent les sèmes des couches inférieures et etc…
Quand c’est au même niveau, système de différences.
Syntaxe permettant à partir des sèmes de produire de la parole, soit des mots.
Différences entre les sèmes et les mots. Dictionnaire de sèmes qui évolue lentement tandis que les mots sont illimits ou presque (les mots combinent des sèmes > combinaisons calculables).
Les phrases sont construites sous forme d’arbres de mots. Les superphrases sont des arbres de phrases.
Possibilité de construction de textes, ensembles de syntagmes.
Calcul d’anaphores ou d’isotopies.
En IEML, 6 symboles de départ, une opération, une multiplication.
Système de coordonnées sémantiques :[edit | edit source]
Image de Mercator, retour à la Renaissance, projection de diversité et créativité sur une grille sémantique permettant un calcul des angles et distances (cartes) soit de coordonner des correspondances.
USL - uniform Semantic Locator : cela correspond à un point dans un système de coordonnées, de la lettre jusqu’au texte.
Adresses conceptuelles : pour les métadonnées objectives (date, lieu, maison édition, auteur comme le DublinCore), rien ne sera changé, ce qui fait vraiment défaut aujourd’hui est la manière de caractériser le contenu. Selon les chercheurs ou programmes de recherche, les données sont décrites de différentes manières.
Ce système va servir pour l’ensemble d’éléments de type mots-clefs, hashtags…
On construit des bases de données virtuelles dont les adresses sont des USL.
Système d’adressage sémantique.
question : il y a donc plusieurs “mondes” cartographiés, dont les coordonnées ne sont pas forcément réconciliables ?
et: on peut construire des usl à partir de racines différentes? par ex: http://sens-public.org/IEML…
Permettrait de nouvelles formes de search, tisser des liens sémantiques.
Parenthèse : les moteurs de recherche travaillent à partir de séquences de caractères, non de concepts. Il ne faut pas confondre Google Translate et la compréhension des langues naturelles.
Permettrait aussi de catégoriser différemment la description (topic, thèmes), utilisation en IEML des mots (des phrases pour décrire des faits ou structures complexes dont on va affirmer la vérité ou réalité).
Si on utilise des phrases, ça va plutôt décrire des faits ou des structures complexes. Si c’est des superphrases, ce sera des théories ou des récits mais ça n’aura pas la même nature référentielles.
Nécessité de distinguer des niveaux de référence soit savoir distinguer les niveaux de références.
Langage commun de description du contenu qui rend la communication entre disciplines possible, le sens locutoire ou linguistique étant ainsi formalisé.
Système de coordonnées au départ symétrique.
question: est ce qu’il n’y a pas un risque au contraire d’isoler les disciplines, voir même les labos ou les projets de recherche dans leur propre monde, systèmes de coordonnées, en fonction de la manière dont ils ont utilisé les sèmes élémentaires ?
Sur cette surface symétrique, on va pouvoir refléter les opérations cognitives des chercheurs, évolution dans le temps : réflexivié
Idée d’une réflexion, d’une observation de son propre processus cognitif ou miroir de l’intelligence cognitive
Le sens ou la connaissance en général ne sont pas à réduire à la capacité locutioire, soit à une définition linguistique : Il est aussi social.
Référence à Wittgenstein.
Pour sa théorie des jeux de langage, il y a différents types de situations conventionnelles dans lesquelles on utilise le langage.
Actes illocutoires : quels sont les jeux de communication et de référence…
Rassembler quels sont les grands jeux de langage qui se pratiquent dans la communauté savantes
Jeu d’identifier les chercheurs (ORCID) pour calculer par la suite l’autorité et la croyance.
question : Ok, mais là on veut adapter ces jeux de communication et de référence. Les formaliser en IEML risque de nous enfermer dans ces jeux que l’on souhaite réinventer. Quel intérêt de rendre calculable les modalités traditionnelles de l’autorité. Donc est ce que l’encodage d’IEML permettrait de faire émerger de nouvelles formes d’autorité
Identifier les datasets, les oeuvres.
aboutissement avec un URL.
Création ontologique : comment je te dis que c’est de ça que je parle ?
Une fois que les gens auront fini de taguer les choses, avec l’AI, ça deviendra facile de finir de taguer avec des algorithmes.
Il faut donc que l’algorythmes soit ouvert sur l’explicite.
On arrive ainsi à la dimension politique : au sens interne qui est émergente dans l’éditorialisation
éditorialisation selon P Levy: multitude d’actes illucotoire de la part des agents de la comm. scientifique et de leurs lecteurs. Des autorités et croyances émergent et guident en retour les actes illocutoires (phénomène circulaire (réflévité circulaire) ) - autopoïétique.
Si les actes illocutoires on été bien définis (formalisé en IEML), possibilité d’observer une émergence de l’autorité et de la croyance à partir de ce qui existe aujourd’hui en terme de capacité d’engagement.
COntre un impérialisme de Google : au lieu d’avoir un algorithme (pour tous et sans possibilité de prise, opaque) ne permettant ainsi pas une auto-réflexion sur l’objet et sur le processus cognitif.
Fonctions d’autorité, en fonction de …
- pondération des types d’engagement,
- des données qui nous importent, que nous formons une connaissance et une auto-réflexion.
- jeux de communications et de référence pertinents
- communautés de chercheurs
Pas une uniformisation des connaissances.
Conclusion[edit | edit source]
Référence Lise Verlaet, nouveau visage dans cette recherche.
- S’engager dans une démarche ouverte, progressive, compatible avec tous les protocoles, standards, formats de fichiers… tout cela dans une perspective de construire un nouveau rapport de force avec les sciences de la nature et de l’ingenierie.
- Constituer un pôle de pensée critique capable de diffuser un nouvel espace public.
- Donner l’exemple vivant d’une intelligence collective pluraliste et réflexive. Progrès dans la formalisation.
- Enrichir l’Intelligence Artificielle par la création sociale de sens, dont les SHS sont les expertes.
L’intelligence humaine n’est pas que de la logique et des statistiques, c’est aussi la construction de récit et de pensées réflexives.
Points importants[edit | edit source]
- production du sens en amont - en définissant un langage - et non en aval - l’algorithme décide du sens a posteriori
- Multiplicité et unité
- Open et capitalisme: en décidant le format et la forme on sort du risque d’approrpiation des données par les besoins du commerce
- quel passage de la machine à l’humain ? est ce qu’on peut envisager de “penser” en IEML ? si le langage est trop compliqué, alors, c’est probablement vain.
- formalisation du locutoire (ok), mais formalisation de l’illocutoire…?!
- Description vs Algorithme (opposition un peu boiteuse?) ma question c’est que je ne vois pas en quoi IEML nous aide à produire des algo. C’est un langage de description (calculable ok), mais quel serait l’algorithme de recherche par exemple ? Que se passe t il quand je fais une requête…? IEML ne contient pas les algorithmes de search. ou bien.
Questions[edit | edit source]
Marcello VR. : question de la production du sens en amont ou en aval de la mise à disposition des contenus. On produit une trop grande quantité de connaissances. Puis des moteurs catégorisent ces connaissances. Donc le sens est fait après coup par des algorithmes dont on ne comprends pas le fonctionnement. Selon Marcello, c’est la production de sens qui est fait, ce n’est pas juste une indexation.
On a un type de relation au savoir qui est filtré par ces algorithmes. Les producteurs de contenus n’ont donc plus aucun rôle que d’alimenter l’algorithme.
On doit donc faire l’effort de produire le sens en amont, en la maitrisant.
C’est le pb de recherche isidore qui fait le choix du full text (et donc qui produit le sens au détriment du sens des chercheurs), alors qu’on pourrait mieux structurer les données et y associer un algorithme simple moissonnant des données bien structurées.
Question de la multiplicité.
- l’uri ne veut rien dire en tant que tel
- l’usl permet d’identifier le concept, il est donc sémantiquement valable.
P Levy: on a le “littéral”, plusieurs instanciations différentes d’un même concept.
Question de l’autorité pour garantir une unité de la langue : on conserve donc une autorité centrale.
Comment construit-on des lexiques à partir des 5000 sèmes ?
Question de la frontière entre le savant et le non-savant. Comment le langage IEML va pouvoir décrire l’humain.
Comment faire rentrer les concepts de Bahktine dans cette langue univoque?
Tout acte symbolique (illocutoire) produit du sens. Ce sont des actes sociaux.
IEML contient la dimension locutoire (pour que les ordinateurs soient capables de comprendre ce langage : composition articulée de concepts) d’où la langue univoque. Mais cette langue univoque est nécessairement plongée dans un contexte social.
P.Levy: à l’automne prochain, proposition d’un séminaire pratique avec la tâche de produire des lexiques.
Marcello: Dans le cadre du projet Revue2.0, IEML est une partie recherche et expérimentation. L’implémentation réelle n’est pas triviale.
Questions et enjeux pour le projet :
- qui souhaiterait l’expérimenter ?
- Sens Public avec Stylo
- Erudit pour expériementer sur un corpus
- Susan Brown pour le parallèle avec le web sémantique.
- quels sont les avantages concrets d’IEML par rapport à un balisage web sémantique poussé ?
- ok d’un point de vue théorique
- besoin de faire un test de balisage IEML vs Semantique avec autorité Rameau, etc. sur 1000 revues : quel gain et lequel ?
- implémentation IEML dans Stylo
Questionner la distinction locutoire/illocutoire/perlocutoire
- l’interprétant est une fonction (Pierce)
Bourrassa: la formalisation d’un acte perlocutoire ne semble pas possible. le perlocutoire est toujours émergent, l’illocutoire est toujours xxx.
le locutoire est toujours conventionnel.