Étude et expérimentation des mécanismes de synchronisation du travail collaboratif sur réseaux de postes de travail


Ce matin là, nous nous sommes séparés en 3 groupes :
  • A hauteur de cheval nous pouvions, certes voir plus loin, mais aussi apprécier plus souverainement la majesté de la forêt. Quelques instants plus tard une agitation nerveuse gagnait notre équipée. Les chiens qui s'étaient éloignés vers la droite commençaient à tirer sur leur cordes, ils allaient être lâchés.
  • figurant : GROUÏK - GROUÏK
  • Attend, qu'est-ce qu'il me raconte lui ?
  • Un chien, ca ne fait pas GROUÏK !
  • Comment veux tu que je coordonne cette chasse si les conventions changent tout le temps. Et, ne me dit pas que tu as fait WOUAH et que j'ai entendu GROUÏK.
  • Donne moi moi ton texte stp. C'est moi qui t'ai envoyé ça ?
  • figurant : Ben, c'est ce que j'ai reçu.
  • Alors: "ils allaient être lâchés, w=E9=20"
  • Et tu as traduit cela en GROUÏK GROUÏK, c'est pas évident.
  • Bon on va pas en faire une histoire aujourd'hui. Mais si nous voulons continuer à écrire ensemble, il va falloir changer de système de courrier électronique.

  • C'est à peu près le sens des propos de Lucy Suckman, program chair de la conférence CSCW en 1988 à Portland en Oregon en définissant le "Travail collaboratif assisté par ordinateur", ou CSCW comme délimitant un nouveau champs de recherche centré sur le rôle de l'ordinateur dans le travail de groupe.

    Il est interressant de voire que cette conférence est néee en 1986 et qu'elle a, dés le début, lié la recherche informatique aux questions sociales que son développement impliquait.

    L'orientation a été donnée à cette conférence il y a une dizaine d'année. Voici un extrait de l'introduction d'Irène Grief conférence chair : "La conférence précédente en 1986 a fourni l'opportunité à plusieurs communautés de chercheurs intéressées par le CSCW de travailler ensemble sur les interactions complexes qui existent entre la technologie et la dynamique sociale des organisations. Elle nous a convaincu que nous étions sur une aire de jeu terriblement excitante, pour la recherche sociologique, informatique et les développeurs de produits."


    Je ne vais pas vous faire un historique du télé-travail en groupe ni des outils nécessaires. Le développement et la modernisation des organisations on su les inventer rapidement et les faire évoluer. Il suffit d'écouter l'émission de Michel Grégoire "Comme ça s'écrit" sur France Inter le samedi et le dimanche soir à 22h pour se rendre compte de l'impact qu'a eu et qu'a encore le courrier.

    Nous avons tous déjà utilisé le téléphone associé à des documents faxés pour réaliser un travail en commun. Actuellement avec le courrier électronique, la rapidité des échanges instaure une présence en empêchant l'attention de s'assoupir.

    Cette forme de présence primitive dans la coopération nécessite-t-elle un appui avec le multimedia ?

    On peux regarder les analyses réalisées sur les premiers systèmes de vidéoconférence. Carmen Egido des Bell communication research nous fait remarquer en 1988, que la qualité relativement pauvre du son est une des cause des plaintes. Mais que les données de mesures de la qualité ne sont pas concrètes et qu'ainsi l'acceptation est plus liéee à la nature de l'activité qu'aux qualités techniques.

    Le deuxième point concernant le faible succès de la vidéoconférence réside dans la rigidité et le coût des salles spécialisées. L'usage des ordinateurs individuels avec sa capillarité apportera la spontanéité de la communication humaine.


    Pour bien comprendre la nécessité du multimedia, je crois qu'il faut évoquer l'impact anti- fantasmagorique lié à l'absence d'une image du correspondant et le rôle rassurant que cette dernière apporte.

    Analysons le processus de mise en relation. Actuellement, je suis en face de vous et cette relation s'établit à plusieurs niveaux.

    Physiquement, des signaux sont émis et perçus, ce sont les 5 sens :

    1. avec la lumière, votre image à une existence et elle s'exprime sur la rétine de mes yeux,
    2. ma respiration fait vibrer mes cordes vocales et ma voix parvient à vos tympans,
    3. nous sommes éloignés, mais j'ai eu l'occasion de serrer quelques mains. Ainsi l'espace d'un instant, une perception tactile s'est produite,
    4. nous avons tous une odeur,
    5. pour finir, nous avons tous un goût, mais dans la première étape de la mise en relation, le goût n'intervient pas.

    En deuxième niveau, nous interprétons l'ensemble des signaux : vous reconnaissez un homme, vous entendez une voix, etc...

    Puis, votre intelligence, à l'aide de la mémoire va ressituer le contexte. Nous sommes à l'université de Versailles Saint Quentin en Yvelines, pour la soutenance de la thèse de Pierre Léonard. La relation entre vous et moi s'est établie avec un niveau de confiance contextuel "xy".

    Mais le contexte de travail qui nous intéresse est celui dans lequel, l'ensemble des signaux physiques ne nous parviennent pas directement.


    Nous nous sommes ainsi penchés sur la transmission de ces signaux par les systèmes informatiques existants. Nous avons retenu deux signaux: la voix et l'image animée. C'était la simplicité évidente, l'odorat et le toucher apparaissent dans les recherches, mais leur application ne s'intégrait pas directement dans nos centres d'intérêts. Ainsi, nous pouvons décliner en prenant la représentation en couches des piles protocolaires, le chemin suivi par ces deux signaux à travers les outils et les technologies informatiques, que nous avons identifiées :

    Vous notez, que j'ai fait un mixe entre une liste de technologies développées ou intégrées et deux notions qui n'ont rien à voir : le contrôle de l'activité, et l'activité en groupe.

    En effet, qui dit recherche, développements, tests, dit en contre partie : mesures, évaluation. Il nous paraissait illusoire d'intervenir dans le domaine de la coopération humaine sans s'appuyer sur des expérimentations "in situ", qui intègrent en aval l'exploration des domaines d'application en allant jusqu'à l'intégration de l'utilisateur final dans le protocole d'expérimentation. C'est pour cela, que nous préférons le terme de recherche impliquée à celui de recherche appliquée. Alors, on se rend compte, rapidement, de la difficulté qui réside dans la mesure et l'évaluation. En reprenant notre schéma des couches de mise en relation, nous identifions deux niveaux :

    1. tout en bas, vous êtes dans le domaine de la technologie, des compteurs d'octets, c'est l'analyse objective,
    2. tout en haut, vous vous trouvez en face de vos impressions : je ne le connais pas, sa voix est déformée, je ne peux plus suivre, c'est le domaine du subjectif et tout ce que cela décline en terme de non mesure.

    On se rend compte maintenant de l'impact des techniques mises en oeuvre sur la qualité de la télé-présence et avec les dégradations quelles induisent, le passage d'une présence simulée à une présence imaginée plus prégnante.


    Cette constatation simple nous a poussé vers un partenariat avec l'association Aristote dés 1991 afin de monter une activité de télé-séminaire basée sur un contenu existant et sérieux et d'autre part vers la réalisation d'événements plus interactifs.

    Le séminaire, car sa mise en oeuvre s'intègre dans un cadre de protocole relationnel bien connu et automatisable :

    Les cours avec l'ENPC pour le travail sur les faibles débits.

    Le deuxième axe concerne des événements externes publiques qui privilégient l'effet de présence et le relationnel direct :


    Coordonner un événement que ce soit un séminaire ou une table ronde nécessite de mettre les acteurs en relation, de leur donner les moyens d'échanger leurs informations. Nous avons vu que les techniques informatiques mises en oeuvre n'étaient pas exemptes de failles. Ces faiblesses peuvent altérer le rendu subjectif et rendre les communications difficiles, pénibles, voire impossibles.

    Lors des premières expérimentations Aristote, et National Hosts en 1994, nous avons remarquer comment la dégradation du son rendait le suivi impossible puisqu'il est le principal véhicule de l'information, et celle de l'image distrayait l'attention.

    Cette dégradation était produite par les pertes de paquets inhérentes au protocole UDP et à la surcharge du réseau dans la journée.

    Pour améliorer le rendu, l'option choisie a été d'adapter la mise en forme du flux existant afin de le rendre moins sensibles aux pertes. Nous avons ainsi écarté les protocoles basés sur la redondance qui surchargent un peu plus le réseau.

    Comment faire ?

    IL faut se pencher sur les flux et analyser le rapport entre leur structure et la mise en paquets sur le réseau. Il ne faut plus appréhender ce dernier comme un simple tuyau plus au moins percé, mais plutôt comme un train dans lequel il y a des premières classes, des voitures restaurants, des secondes classes, une salle de jeu pour les enfants, autant d'éléments qui avec leur typicité différencient un voyage d'un transport en bétaillère.


    Ainsi, pour le son, nous avons travaillé sur le format µlaw à 64Kbits/s. Ce qui peut paraître contraire à ce que je viens de dire puisque ce flux n'est pas structuré. Les pertes génèrent des trous dans le son, qui durent, au minimum, le temps d'un paquet soit 1/8 de seconde.

    Nous avons choisi d'appliquer une technique utilisée sur le disque compact et de faire un parallèle entre les pistes concentriques sur le CD et le flux empaqueté sur le réseau, entre l'émetteur et le récepteur.

    Lorsque je raye un CD, je perds une information qui dans le temps n'est pas contiguë. Les minuscules trous générés à la restitution sont inaudibles. Il en est de même lorsqu'un paquet est perdu. La multitude de cellules correspondantes ne sont pas contiguës dans le temps et les trous générés ne seront pas audibles. Ils peuvent être remplis par d'autres signaux afin de gommer les clicks liés aux fronts et au silence du numérique.

    Les résultats en laboratoire sont encourageants. Mais l'utilisation lors des séminaires Aristote nous a montré que la multiplication par huit du nombre de paquets a augmenté le taux de pertes de façon trop importante.

    Sans condamner cette méthode qui fait ces preuves chez RealAudio, un travail supplémentaire pourrait être réalisé sur le son lors de  la restitution.


    L'image animée nécessitait aussi un traitement particulier. Certes, elle n'a qu'un rôle rassurant dans un séminaire, mais elle est utile. Par contre, lors des tables rondes sa qualité s'avère indispensable, pour générer l'effet de présence.

    La première génération de codeur H261 fournissait un flux continu mis en paquets simplement par un découpage basé sur le début d'une image et une taille maximale de remplissage.

    Or la technique H261, conçue pour un réseau synchrone et fiable est basée sur la désignation relative des objets (blocs, Macro blocs). Sur Internet, la perte d'un paquet casse le suivi du cheminement relatif de cette désignation. Lors, du rafraîchissement d'une image, si les blocs 4, 5 et 6 ont été perdus , le bloc suivant 7 sera interprété comme le 4. Ce qui provoque le décalage que l'on voit sur l'image. A ceci s'ajoute, aussi, les difficultés de resynchronisation des décodeurs lors du traitement du paquet suivant, lorsqu'il démarre au milieu d'un objet.

    La nouvelle mise en paquet base le découpage du flux sur les frontières d'objets H261 et l'ajout dans l'en-tête des informations de repérage de ces objets dans le paquet.

    Ainsi, à la réception, chaque paquet peut être analysé indépendamment du précédent et du suivant. Ce qui augmente la fiabilité et la robustesse.




    Objectivement, ces mesures présentent l'intérêt de nous sensibiliser sur la multiplication des paquets d'informations générés par cette nouvelle méthode. Mais, elles ne nous informent pas sur le degré d'amélioration du rendu. Pour cela nous devons faire confiance à notre sens de l'analyse et de l'écoute des utilisateurs.

    Subjectivement donc, nous remarquons que les cisaillements de l'image ont disparu. Celle-ci reste stable en cas de pertes de paquets, seul quelques ombres apparaissent dans les bougés rapides générateurs de rafales de paquets sur le réseau.


    En augmentant la qualité de la restitution sonore et visuelle, nous avons pu aller plus en avant dans l'établissement de la relation et de la confiance. Cette télé-présence créer l'unité de lieu.

    Un séminaire, une réunion, ne se limitent pas à la diffusion d'une vidéo de qualité. Cela s'appelle de la télévision. Il s'agit plutôt de faire quelque chose ensemble organiser une action unique. Ainsi, pour cette activité de séminaire, les acétates étaient transmis en parallèle sur un canal vidéo H261. Ce qui avait valu à l'équipe TÉLÉSIA la primeur de la définition du format SCIF. Outre le débit important, la qualité vidéo n'était pas suffisante pour les documents manuscrits ou trop petits. Ensuite, l'appréhension des conférenciers leurs fait manipuler souvent leur acétates ce qui provoquent des rémissions de l'image. Elle est ainsi très peu stable.

    Nous avons donc opté pour l'usage de documents entièrement électroniques. Les contraintes du système sont :


    C'est le système que j'utilise actuellement, encore amélioré dans le sens d'une meilleur capillarité et standardisation avec un relais sur un serveur CHAT qui diffuse les ordres de chargement vers des machines non connectées au réseau de multi-difusion multicast FMBONE.

    L'approche de Dia_Dif diffère des autres systèmes :

    En ayant intégrer le Système d'Information WEB et adopté le protocole HTTP, les documents utilisés pourront suivre l'évolution des présentations du WEB. Les conférenciers pourront concevoir des documents plus complets qui mêleront des images fixes, animées, du son, du texte.

    Ce système a été inauguré en Mars 1996 dans le cadre d'un cours réalisé pour les élèves de l'ENPC. C'était aussi le seul moyen de faire passer l'image, le son et les documents sur une ligne à 64 Kbits/s.


    Le dernier aspect à traiter est la notion du temps. Ou comment jouer cette action dans un temps unique identique pour chaque acteur. Je vais étayer ma démonstration en vous présentant deux expérimentations importantes : la session Aristote du 13 Juin 1996 et la retransmission des tables rondes de la conférence INET96.

    Lorsque l'on regarde le problème lié à l'ubiquité, on remarque vite qu'une mesure du délai de propagation des paquets sur le réseau est importante. Les organisations de standardisation des télécommunications énoncent généralement que ce délai doit être inférieur à 150 ms. Au delà, la conversation est réputée pénible. Dans nos expériences, nous n'avions pas le moyen de mesurer précisément ce délai de transit. Mais nous savions, à la suite de la conférence "L'Internet et l'entreprise" à Bordeaux en Mars 1996 que la complexité de l'Internet routé actuel ne permettait pas le suivi d'une conversation.

    Ainsi pour ces deux expériences, nous avons mesuré pour chaque station auditeur, les taux de pertes de paquets et la variation de délais inter-paquets notée jitter. Les mesures étaient synthétisées sur la station puis transmise à Rocquencourt.


    Pour les séminaires Aristote, la production comprend :


    Ces graphiques présentent le nombres de paquets perdus par tranches horaires sur le site du SEPT de Caen.

    L'axe des abcisses représente le nombre de paquets consécutifs perdus. La hauteur le nombre de pertes correspondant à cette suite de paquets consécutifs perdus. La profondeur, les tranches horaires de 9 heures à 12 heures.

    Dans le cadre du séminaire Aristote du 13 Juin 1996, nous constatons que les pertes sont régulières, avec 1 voir 2 paquets consécutifs perdus. Nous ne remarquons pas d'accident de routage. La différence de pourcentage de pertes entre la voix et l'image est simplement provoquée par un décodage non systématique de certains flux, notamment la vidéo.


    L'echelle correspond aux tranches horaires en profondeur, la valeur du jitter en abcisse, avec des pas de 1 milli-seconde pour l'audio et de 200 micro-secondes pour la vidéo. En hauteur, l'échelle indique le nombre de hits correspondant à cette tranche de valeur.

    Maintenant , si nous regardons la variation du délai, nous constatons aussi qu'elle est régulière, une à deux milli-secondes, avec une augmentation en fin de matinée, lorsque la charge de RENATER augmente.


    Pour cet événement exceptionnel réunissant des personnalités de par et d'autre de l'Atlantique, et pour la réalisation des table rondes préfigurant l'usage du réseau Internet II, une production de haute qualité a été spécifiée.

    Ainsi, l'image se devait d'être grande et très mobile afin de suggérer au mieux l'effet de présence :

    Nous avons choisi de vous présenter la retransmission des tables rondes transocéaniques de la conférence INET'96, et l'inauguration de du site web de la tele vison mondiale TV5.

    Ces deux expérimentations ont l'avantage de mettre en parallèle deux technologies de réseau et deux productions différentes.


    Les échelles sont identiques à celles du SEPT de Caen.

    Par contre, le premier jour de la conférence INET'96, un curieux phénomène de son « breaké » a perturbé les essais. Un phénomène qui se caractèrise par un délai du son de 10 secondes puis une répétition d'échantillons de plus en plus courts et rapides.

    On peut d'ailleurs en voire la marque sur le graphique des pertes audio. Nous attribuons ce phénomène à une inadaptation des niveaux électriques entre la table de mixage, la carte de numérisation du son et le pilote du périphérique. Ce problème a été réglé en branchant les micros directement sur la station. Nous avons reçu un courrier d'un américain qui avait eu le même phénomène, il met en cause le routeur muliticast dans certaines configurations de réseau IP/ATM et IP routés.

    Nous nottons aussi une dyssimétrie qualitative, les pertes sont très faibles sur le lien IP/ATM, avec une qualité subjective et objective meilleur dans le sens Montréal - Orsay.


    Les échelles ont identiques à celles du SEPT de Caen.

    Afin de limiter le léger délai, la configuration des fonctions de décodage a été modifiée, en les séparant :

    Ainsi, les deux journées suivantes se sont déroulées avec une amélioration très nette de la qualité tant pour les pertes que pour les délais.

    Et, pour imager cette amélioration constatée des délais, je ne citerai que le phénomène de larsen transocéanique, lors du passage de la dorsale de RERIF en ce jour de départ en congés du Vendredi 28 Juin.


    Nous remarquons que le pic déja curieux à 17 ms est désormais doublé par un autre pic à 1 milli-seconde.

    C'est à notre avis, la signature des hauts débits sur les architectures de système d'exploitation comme UNIX.

    En effet, ce n'est pas le temps de calcul des images qui monopolise le processeur, qui est libre à 50%. C'est plutôt, la remontée des 400 paquets par secondes, pour les deux images. Ce nombre de paquets multicast est reçu par l'ensemble des stations et analysé par le noyau UNIX. Des threads de forte priorité les filtrent à deux niveaux : sélection sur le groupe puis sélection sur le port. L'ordonnanceur est ainsi perturbé par cette préemption et ne peux rendre la main au processus de traitement du son dans un délai invariant.


    En quelques instants, j'ai tenter de retracer les différentes techniques de mise en relation qui permettent de créer une unité de lieu, d'action et de temps qui rendent réaliste les télé-activités sur réseau. Certes, ce n'est pas une thèse très scientifique classique. Présenter les travaux de l'équipe TÉLÉSIA, imposer dans le milieu de la recherche l'expérimentation "in situ", comme une méthode d'investigation à par entière n'a pas été évident, et si cet ensemble d'expérimentations Françaises, internationales a été un terreau pratiquement unique en France, je souhaite que la germination prenne et d'y participer.


    Copyright (C) 1997 Pierre Léonard