Séminaire - Séance 02

From Wiki Revue20
Jump to: navigation, search

Argumentaire[edit | edit source]

Pour cette séance, Susan Brown nous propose une intervention autour de "how journal (and other discursive content) can be understood and treated as data, and that this doesn’t necessarily subtract from the human element".

Pour préparer la séance, nous vous invitons à la lecture de "An Entity By Any Other Name: Linked Open Data as a Basis for a Decentered, Dynamic Scholarly Publishing Ecology" par Susan Brown et John Simpson (full text).

Rendez-vous le vendredi 26 avril :

  • Montréal : de 10h00 à 12h00 - salle C-8132 (CRIHN) / Pavillon Lionel-Groulx / Université de Montréal
  • France : de 16h00 à 18h00 - vidéo en direct.

Archives[edit | edit source]

Compte-rendu de la séance[edit | edit source]

  • Reviewing the basics : data/metadata/LOD/towards LOD for scholarly journals
  • How linked data may benefits journal?

Data[edit | edit source]

What is DATA?

what is the difference between an online journal and a print journal?

—> one is data that can be read by computers : readable by humans and by machines.

Thinking the Text as Data

problématique d’un fantasme de déshumanisation à travers la données : «la Littérature n’est pas une donnée»

Differents types of textual data:

  • textes structurés BDD, tableurs
  • texte non structuré données textes brutes, lagage naturel, texte libre
  • texte semi-structuré balisage encodé (embeded markup)(HTML, XML)

ces données sont lisibles par les humains, et par les machines, mais suivants diff. effets.

Metadatas[edit | edit source]

‘les données sur les données’

ne font pas partie du texte proprement dit, ou corps du texte (même si elles le sont en fait)

données séparées ou faire partie du document

Que faisons nous déjà avec les données des revues ?[edit | edit source]

ou comment on utilise les machines pour

utilisation des données dans SP :[edit | edit source]

  • 3 types de mot-clés : éditeurs, auteurs, lecteurs
  • données alignées sur des autorités
  • données bibliographiques structurées

Semantics[edit | edit source]

Les machines ne comprennent pas, ils ne saisissent pas la signification, ils accèdent à des valeurs.

challenge : on doit des efforts particuliers sur la caractérisation des données pour que le calcul soit pertinent notamment pour les humanités

One model, many outputs : Solution de passer par XML/TEI, en tant que format pivot pour une structuration des data, et plusieurs possibilités d’output (flexibility).

exemples :

  • Digital born Régénérations cwrc.ca/voyant/regenerations - utilisation de la Dynamic Table of Contents
  • Orlando project (Journal) : l’hyperlien est “organisé”, permet des index croisés entre thématiques et auteurs, grâce au balisage sémantique.
    • utilisation d’inférences pour la navigation
    • création de visualisation : du XML au LOD

LOD :[edit | edit source]

set of technologies that extends the standards of the web to build more meaning and semantics contents et relationsships into the web itself

  • extension des normes WWW pour le format et l’échange de données
  • de chat-spleens aux blob-jets : rendre le web (les liens) significatif (sémantique)

l’ambition est que ces jeux de données sémantiques est qu’ils puissent s’interconnecter

Technologies clés :

  • RDF (Ressource Description Framework): a model to describe ressources in the semantic web
  • OWL (Web Ontology Langage): describing relationships and interopérabilité entre les blob-jets décrits/ les données
  • SPARQL (SPonge ARtistic Query Langage): langage similaire à SQL qui permet d’interroger des données sémantiques

Structure sémantique en triplet : Sujet Prédicat [Objet] (exemple : Indiana has form [roman])

les sujets/objets sont des noeuds, les prédicats sont des liens.

Permet l’inférence : déduction d’une nouvelle relation à partir de deux ou plus relations entre sujets/objets.

Google Knowledge Graph[edit | edit source]

Knowledge data : mix with web data and ontology

les données structurées permettent leur éditorialisation dans une interface lisible (pour les humains)

Le s avantages potentiels des données ouvertes liées[edit | edit source]

  • distribué
  • interopérabilité
  • réutilisation : more structured et standardized : découvertes de nouvelles informations
  • accessibilité
  • inférences
  • heureux lézard (serendipity)

Qu’y a t il dans un nom (voir l’article)[edit | edit source]

  • Interconnexion comme premier vers l’interopérabilité : proposer un environnement plus interconnecté et plus facilement navigable.
  • L’application d,un cadre écologique met l’accent sur la mesure dans laquelle toute tentative de modification des communications e t des discours (zut) tension entre diversité et systématisation : “modifier les liens entre personnes et institutions (…zut)” (#question)
  1. l’interconnexion et, au moins au niveau de l’interface, l’intégration des ressources ;
  2. la mise à disposition d’informations contextuelles et relationnelles comme base pour une environnement riche de connaissances ;
  3. les boucles de rétroaction qui améliorent la qualité des données, en particulier ceux qui sont fournies par les fournisseurs d’information à grande échelle ;
  4. l’incorporation d’une diversité de discours, de méthodologies, et de données y compris des ontologies nuancées et des ensembles de données qui respectent le local et le particulier avec les valeurs aberrantes même si elles peuvent apparaître comme du « bruit » dans de grands ensembles.

Lacunes d’infrastructure de LOD

  1. désambiguiasation/alignment/liaison d’entités
    • production automatisée de données liées
      • identification des entités
      • interconnextion
      • extraction des relations
      • vérification des résultats :)
  2. les ontologies
    • ontologies et cocabularires pour les sciences humaines
    • naviguer entre ontologies
  3. Outils faciles à utiliser
    • outils de découverte et d’exploration
    • outils d’amélioration et d’augmentation

Not One Ontology

(d’où l’idée de la métaontologie qui permet d’étudier les ontologies : @manitou) One to rule them all, and in théorie link them all.

LINCS (présentation du projet)[edit | edit source]

Source datasets > Conversion > Storage > Access (consumption, new conversions)

Conversion : human expert validation, natural language processing + partial human validation, automated NLP conversion

centralisation ? #question

what about LOD for scholarly journals?[edit | edit source]

  • Que veulent les revues des données ouvertes liées ?
  • quels types de métadonnées les revues ont-elles et que se passe-t-il avec cette information ?
  • que fait il pour permettre aux gens d’accéder à eurs contenuts (référencement)
  • comment les LOD pourraient elles être intégrées…(au flux de travail des revues ?)
  • COmment intégrer la production de données ouvertes liées avec les flux de travail des revues ?
    • production ? postproduction ?
  • Érudit (partenaire de LINCS)?
  • OpenEdition ?
  • HUmaNum ?
    • que font-ils avec les données et celles des revues, que font-ils avec RDF,quel est l’état de leur ontologie
  • Collaboration vers une écologie de publication de données ouvertes liées ?

Questions :[edit | edit source]

  • je serais intéressé pour entendre Stéphane P. sur la façon dont Isidore adresse la question de l’uniformisation liée à la modélisation. voir annotation
  • le problème des usages: qui utilise tout ça pour le moment? manque d’interfaces? ou pratiques?
  • structuration en amont ou en aval et lien entre les deux.
  • boucles de retroaction:
    • où elles devraient se faire?
    • quelle formes/modalités : l’enjeu est il la rigueur scientifique ou la circulation des données
  • lien entre lincs et isidore?

@Marcello : Quels sont les usages, et les pratiques ?

  • quand les données sont là, mais ne sont pas utilisées.

@Stephane : Isidore et Nakala sont des structures qui exploitent les données sémantiques.

questions très importantes : question de maintenance, la stabilité des LOD est très importante car c’est technologiquement, c’est faisable, mais scientifiquement on ne sait pas faire.

la valeur scientifique donnée au prédicat, il ne suffit pas d’avoir des ontologies pour lier ces données, c’est plutôt quelle valeur on donne au prédicat et comment on type les ontologies.

par exemple, le travail de spécifications dans les musées, relève de ce cette question.

HUMANUM : on sait mettre en place des infra. de web sémantique, mais on essaie d’amener les chercheurs à se poser les bonnes questions sur le liage des données, vers des référentiels, etc.

c’est une tâche importante : typer les prédicats pour y associer une valeur scientifique.

ce qui manque au web sémantique : typer le prédicat.

le web sémantique est un outil, mais il faut que l’outil devienne scientifique, pour cela, on doit avoir un manuel qui explique les liens sémantiques que l’on fait. C’est cela qui doit être publié comme une publication scientifique, c’est l’organisation des données.

voir la publication exemple de humanum http://isidore.science/document/10670/1.cztpk9

Que fait humanum avec les données des chercheurs : vous gérez la données, mais quelle valeur a t elle scientifiquement ? c’est le coeur de l’évolution des revues.

quand ces revues vont embarquer des données: quelle valeur auront-elles ?

“valeur” : quelle est la justification du choix du predicat ?

déplacer le débat scientifique sur la caractérisation (choix du modèle et des prédicats) des données

@EmilieP. : principe de l’open science, explaining what is a database. we need founders to put pressure on researcher to document datas.

@Susan: comment produire des “traductions” de données selon les ontologies que l’on utilise

@Jasmine: regarder l’utilisation des ontologies comme un acte de traduction.

@marcello: quelle boucle de retroaction, où est-ce que la boucle a lieu ?

@susan: changer la source (“correction annotation”)

  • feedback loops

@nicolas: 2 voies possibles pour ces “loops”:

  1. valider les données (protocoles scientifiques de participation)
  2. ou interpréter les données (annotations, circulations, collections)

@nicolas : question sur l’uniformisation, comment éviter que les ontologies n’écrasent les particularités

@stephan : pas de réponse, on ne sait pas faire. les données sont déjà homogènes, elles sont beaucoup nettoyées. pas de mécanisme pour faire ça correctement.

on croit au fait qu’une communauté valide des informations, des liens, de enrichissements, jusqu’à l’idée d’un “Cyber-approval” : validé par la communauté scientifique.

@susan: Machine à différence : tension entre l’interopérabilité (qui nous fait tendre vers l’homogénéisation, conformité) et la diversité ()

on doit résister à la tentation de conformer et être stratégique

“semantically equivalent”

“fonctionnaly equivalent” ce qui veut dire n’est pas équivalent sémantiquement, mais

@nicolas: le prob peut être inversé : placer la diversité dans l’interstice, la frontière (l’écotone, lisière ou créolisation), là où les données peuvent dialoguer, c’est là qu’elle se manifestera d’une facons sans doute nouvelle. (voir https://hyp.is/Xd0ZSGeOEem-UH_Apv8m8g/stylo.ecrituresnumeriques.ca/api/v1/htmlArticle/5cc1d219972e5900191acd92?preview=true)

@stephane: proposer des interfaces permettant de “rendre la main” pour faire le choix.

nakala : modele de données tres épuré (dc termes) : construire la possibilité du choix.

@jasmine : on crée des schéma comprenant 2 niveaux d’onotologies

  • 1 niveau complexe avec données granulaires
  • 1 niveau plus simple pour des usages plus simples, afin de comprendre comment les infos sont liés.

@susan: principe de reification : 1 triplet devient une entité (avec un id).

Mais LINCS ne veut pas utiliser la réification, ils utilisent plutôt le web annotation data model : on prend des statements qui ont des propriétés comme une anotation, ce n’est plus un triplet. (qui, quand, quoi, etc…), on peut alors générer des triplets qui sont plus directs.

@stephane : isidore a créé sa propre ontologie, mais l’important n’est pas le modèle, c’est comment le modèle est documenté et lié avec les autres modèles, et comment le modele peut être réduit ou augmenté selon les ontologies à lier. Le modèle d’ISIDORE : https://isidore.science/sqe