22/07/2014

Le Web, un territoire à explorer

Les évolutions du Web


Internet, le Web... Avant toute exploration, il est nécessaire d’en savoir un minimum au sujet du territoire sur lequel on s'aventure. Voici quelques éléments (ou rappels) pour vous aider à mieux appréhender le Web et son étendue.

Le Web dit 2.0


Après les années 2000, le Web a subi une transformation majeure. Dale Dougherty de la société O'Reilly Media inventa le terme «Web 2.0 » pour décrire cette (r)évolution. On désignait ainsi les nouveautés suivantes, qui placent l'internaute au cœur de la création de contenu web.

Le tout-en-ligne: avec l'apparition du Cloud Computing (ou informatique dans les nuages), de nombreuses applications interopérables sont disponibles en ligne (bureautique avec Google Documents, par exemple). Alors qu'auparavant, les logiciels s'installaient en local sur votre poste de travail ou dans une architecture dient-serveur dans le cadre d'une organisation professionnelle, ils sont désormais délocalisés sur d'énormes serveurs distants et accessibles via le Web, qui devient ainsi une sorte de nouveau système d'exploitation.

De nouvelles technologies plus conviviales et plus interactives (exemple : Ajax), des systèmes de publication plus faciles à utiliser (CMS, plates-formes de blogs...). Ces technologies permettent à l'utilisateur de produire lui-même des contenus; ils classent l'information via des tags, en vue de davantage de partage et de collaboration. Cette évolution voit son apothéose avec l'avènement des réseaux sociaux (Facebook, Twitter_.).

L'abonnement par des formats de syndication (RSS ou Atom) permet de s'abonner à un site et de recevoir ses actualités via un agrégateur de flux.

Les mash-up représentent une agrégation de contenus en provenance d'autres sites pour le mettre sur un nouveau. Par exemple, de nombreux sites web utilisent Google AAaps pour géolocaliser des lieux.

Vers un Web sémantique ?

Le Web actuel se trouve marqué notamment par le développement de l'Internet mobile (via les téléphones portables surtout) et la géolocalisation.

De façon générale, actuellement, le Web s’oriente de plus en plus vers ce que certains appellent le Web sémantique, c'est-à-dire le Web des données.

Les dernières avancées technologiques, comme les puces RFID (Radio Frequency Identification), permettent la réalité augmentée. Quant aux codes-barres en deux dimensions, ils permettent, apposés sur un support papier que l'on scanne avec un smartphone, de visionner une vidéo, par exemple.



Qui produit du contenu sur le Web ?
Le règne des experts

À l'origine, le Web était principalement utilisé par des universitaires, à des fins de documentation. Petit à petit, d'autres professionnels ont investi la Toile. Durant cette période, l'information était donc distillée de une vers n personnes sans interactions possibles (ou presque, par exemple par e-mail). De même, celle-ci était normalement validée avant d'être publiée. Bref; bien souvent, l'information provenait d'experts et était donc a priori valide.

L'expert, c est vous... ou presque

Par la suite, tout un chacun a pu produire du contenu web facilement et à moindre frais. De ce fait, le nombre de données présentes sur la Toile a explosé. Ce contenu de provenance parfois inconnue doit dans ce cas d'autant plus être vérifié.

L'explosion des sources de données
Avec la multiplication des technologies, les données présentes sur le Web proviennent désormais de multiples sources : appareils de géolocalisation, puces RFID, codes-barres 2D, etc. Il ne s'agit donc plus tant de contenu produit et construit par l'être humain que de données, plus ou moins contrôlées par leur émetteur.

Le Web pourvoyeur d'infobésité ?

Outre la quantité phénoménale des données mises à disposition sur le Web, l'information y est de plus hétérogène et fragmentée, de par la multiplicité de ses sources, de ses formats, de sa nature, ou encore, par les différentes manières d'y accéder.

Multiplicité des sources: comme nous venons de le voir, les données peuvent provenir aussi bien d'ertreprises, d'associations, de particuliers... La démocratisation des outils de publication et les fonctionnalités sociales du Web ont renforcé ce processus.

Les données peuvent revêtir différentes natures (étude de marché, article, etc.) et de multiples formats et supports : texte, son, image, vidéo».

L'accès à l'information peut se faire de différentes façons: via un moteur de recherche, un réseau social, etc.

Les données peuvent très bien être structurées (exemple : une base de données) ou non.

De plus, sur cet espace international et multilingue qu'est le Web, la langue reste pour certains une barrière pouraccéder aux contenus. Par ailleurs, les caractères non latins ne sont pas toujours bien pris en compte. Enfin, même si les traducteurs en ligne ont fait de merveilleux progrès, leurs traductions restent tout de même assez limitées au niveau du sens.

Enfin, les contenus présents sur le Web sont en perpétuelle évolution. Certaines pages (voire des sites web entiers) disparaissent à jamais, d'autres sont mises à jour, régulièrement ou non. À ce jour, aucune politique d'archivage systématique et exhaustive du Web n'existe. En particulier, les liens hypertextes ne sont pas toujours mis à jour, engendrant de nombreux liens morts, problématiques pour la navigation et la recherche.

Topologie du Web : question de forme ou de fond ?

Afin d'explorer l'immensité du Web, essayons d'en dresser, ne serait-ce qu'à grands traits, une topologie (littéralement «étude du lieu »), en essayant d'identifier les différents sites rencontrés : en fonction de leur forme d'abord (site statique classique, blog, réseau social, application».), mais aussi en fonction de la nature de l'information qu'ils fournissent (presse, e-commerce, service en ligne, site perso...). On remarque d'ailleurs que les frontières ne sont pas étanches entre ces différentes catégories : la plupart du temps, la nature de l'information offerte est très liée à la forme du site, et un même site peut exploiter différentes formes et fonctionnalités (pages statiques, fonctionnalités sociales, applications en ligne, etc.). Quoi qu'il en soit, identifier le type de site peut fortement aider à en appréhender la valeur et l'utilité du contenu pour votre veille.

Jusqu où s'étend le Web ?

Première question que se posera l'explorateur : mais quelle est l'étendue de ce nouveau territoire? Les résultats obtenus via un moteur de recherche classique comme Google ne sonde qu'une partie infime du Web total. En effet, en raison de plusieurs paramètres que nous expliciterons plus tard, « À la recherche du Web perdu... », les moteurs de recherche n'indexent pas la totalité des ressources disponibles sur le Web. Pourtant, elles restent accessibles en ligne. Cette partie du Web est parfois nommé le Web invisible, encore appelé Web profond.

Par opposition, le Web visible est constitué de toutes les ressources indexées par les moteurs de recherche.


Les sites « traditionnels »
Sites vitrines d'une entreprise ou d'une organisation

Très courants, ces sites font exister une entreprise (ou un indépendant) ou tout autre type d'organisation (association, organisation internationale, service public, etc.) sur la Toile, en présentant ses activités et toutes autres informations quelle jugera utile de transmettre au public. Selon qu'ils soient destinés à vendre ou à informer le public, ces sites pourront également fournir divers services et renseignements à l'utilisateur.

Les sites institutionnels, garants de la parole officielle
La plupart des institutions publiques disposent d'outils web variés pour diffuser des informations. A priori, le contenu publié par elles sera validé par une lourde chaîne hiérarchique. Naturellement, il reflétera la politique officielle de l'institution.

Avec l'apparition de I’Open Data, certaines constitueront également un réservoir de données important.

Les bibliothèques et bases de connaissances
De plus, avec l'avènement d'Internet, les bibliothèques retrouvent leur rôle de diffuseur de connaissances. La plupart d'entre elles ont ainsi migré la recherche de leur fonds documentaire sur le Web. Des bibliothèques en ligne proposent des ouvrages numérisés (notamment les livres tombés dans le domaine public). Certaines bibliothèques sont même totalement en ligne, comme Gallica.
Les encyclopédies et dictionnaires en ligne constituent également des bases de connaissances importantes. L'encyclopédie la plus connue du grand public reste certainement Wkipédia, qui fonctionne de manière collaborative. Les encyclopédies traditionnelles proposent elles aussi désormais une version en ligne, avec parfois un accès payant. Quant aux dictionnaires en ligne, on en trouve de toutes sortes. Certains sont génériques comme Mediadico, d'autres se consacrent aux langues ou à des domaines spécifiques : synonymes, argot, dictionnaires professionnels, etc.

Vers une éducation en ligne

De nombreuses institutions scolaires offrent des contenus pédagogiques en ligne. Désormais, chaque école ou presque dispose d'un site web. Certaines universités proposent également leurs cours en podcasts (audiodiffusion).

Les portails

Un portail informatique est un type de site web qui regroupe les accès vers d'autres sites web, le plus souvent sur une thématique donnée.

Les sites personnels : une réalité encore bien présente sur le Web
Les particuliers continuent de produire du contenu sur le Web. La plupart des FAI (fournisseurs d'accès à Internet) offrent en effet un hébergement compris dans leur forfait d'abonnement.

De plus, les logiciels pour publier du contenu web se sont démocratisés et il est désormais également possible de créer un site avec une application en ligne. Plus aucune excuse pour ne pas s'exprimer sur le Web. Ces sites contiennent donc le pire comme le meilleur. Le veilleur devra prêter attention à bien vérifier ce contenu.

Les sites d'e-commerce ont le vent en poupe

La plupart des entreprises marchandes disposent désormais d'une boutique en ligne pour vendre leurs produits. Le nombre de sites commerciaux croît de façon exponentielle, le Web représentant pour beaucoup un nouvel eldorado. Dans un certaine mesure, les sites commerciaux occupent de plus en plus les premières pages des résultats des moteurs de recherche (notamment via les liens sponsorisés). Ces sites seront particulièrement à surveiller dans le cadre d'une veille concurrentielle, d'image et technologique.

La migration à marche forcée des médias traditionnels

La plupart des médias traditionnels (télévision, radio, presse écrite) ont migré de gré ou de force sur le Web, en utilisant ses possibilités multi-médias (streaming vidéo pour la télévision, podcasts pour la radio.-). La segmentation des marchés de ces médias s'est ainsi accrue et chaque service se spécialise dans un domaine et sur un public cible. Bien souvent, cette migration s'est accompagnée de fonctionnalités supplémentaires, comme la rediffusion pour les télévisions sur Internet, ou de fonctionnalités sociales (voir section suivante), destinées à faciliter le partage de l'information par ses utilisateurs.
Par ailleurs, à côté des acteurs traditionnels, le Web offre la possibilité à chacun d'investir un média en ligne, par exemple, lancer sa propre webradio.

La majorité des titres de la presse écrite se retrouve également en ligne. La plupart ont fait le choix du gratuit. Toutefois, certains conservent un accès payant à leurs archives ou à certains articles ou dossiers traités plus en profondeur. La presse en ligne sera le terrain de prédilection pour réaliser une veille d'image et concurrentielle.

En avant pour le Web social

Hormis les sites classiques, le plus souvent statiques et informatifs à sens unique, le Web s'est enrichi de toute la sphère que l'on nomme «Web social » (ou « 2.0 ») : réseaux sociaux, blogs, microblogs, wikis, etc. Les contenus sont désormais voués à être partagés et commentés.

Réseaux sociaux, pour le meilleur et pour le pire

Le réseau social constitue avant tout un concept sociologique. Il représente des entités sociales (individus, organisations) reliées entre elles lors d'interactions. Le réseau social en ligne, quant à lui, constitue une catégorie de sites web qui offre la possibilité à ses membres d'interagir entre eux, donnant ainsi naissance à un réseau social. Le plus connu d'entre eux ? Facebook, naturellement. Avec le temps, le marché des réseaux sociaux s'est segmenté : réseaux généralistes, professionnels, rencontres, etc.

Face aux géants du secteur, l'offre s'est ensuite segmentée encore davantage pour aboutir à une hyperspécialisation. Des réseaux sociaux se sont montés par exemple sur l'hyperlocal,qui est une tendance en hausse dans la plupart des services du Web. Le facteur de proximité géographique permet en effet de tirer son épingle du jeu par rapport aux acteurs dominants dans un secteur donné.

Les plates-formes de partage de contenus
La plupart des outils du Web social ont fondé leur succès sur la notion de partage. Ainsi, les internautes peuvent échanger autour de contenus divers comme la vidéo, les photos, la musique, etc., de produits ou encore de lieux, avec la généralisation des outils de géolocalisation.

Ainsi, le Web actuel constitue un vaste réservoir de contenus. Pour chaque type de contenu (ou presque), des plates-formes en ligne se sont créées pour partager le plus souvent un type de contenu spécifique. Dans le futur, nous verrons comment trouver facilement tout type de contenu. En fonction des droits attribués par le propriétaire du fichier, le webmaster pourra le publier sur son propre site via un code à embarquer.

Les services de curation
La curation est un concept en plein essor. Elle s'apparente à une sorte de « revue de presse » du Web.

Une curation porte généralement sur une thématique donnée. Elle se déroule en 3 étapes :

  1. sélection du contenu ;
  2. édition de l'information ;
  3. partage de l'information à son réseau.

Expression libre : du journal intime au blog
Le blog représente une catégorie particulière de sites web. Il est constitué de billets (ou posts, en anglais) présentés sous forme antéchronologique, c'est-à-dire du plus récent au moins récent. Les lecteurs internautes sont invités à interagir avec le contenu via un système de commentaires (modérés a priori ou a posteriori). Au début, la plupart des blogs représentaient des journaux intimes. Par la suite, ils se sont professionnalisés, au début sur un ensemble de thématiques qui intéressaient l'auteur, puis ils se sont spécialisés dans un domaine particulier pour la plupart.

Dans l'air du temps : le microblogging
Comme son nom l'indique, le microblog est un blog avec des messages plus courts. À ce jour, Twitter reste le plus connu. Il permet de publier et de s’échanger des messages courts appelés tweets, dans le cadre d'un réseau social en ligne.

De nouveaux services web collent un peu mieux à la définition qu'on se fait d'un blog. Tumblr en fait partie. Il permet de publier des articles courts accompagnés de contenus multimédias : images, vidéos, etc.

Le wiki : une écriture à plusieurs mains
Le wiki est une forme de site web où le contenu est modifiable par tout ou une partie des utilisateurs. Le wiki a été popularisé notamment par l'encyclopédie en ligne Wikipédia.

Votez pour votre préféré : les Digg-like

Les Digg-like sont des applications où l'intemaute propose et vote pour du contenu.

Les forums
Très populaires avant le Web social et encore très actifs sur des thématiques spécialisées, les forums constituent un espace d'échanges autour d'une thématique particulière. Par exemple, le forum du site Abondance fourmille d'informations concernant les moteurs de recherche.

Les plates-formes de commentaires
Vous arrive-il de déposer des commentaires par rapport à un article publié en ligne puis de les oublier ? Il existe des services web comme Disqus pour assurer leur suivi.

Les plates-formes d'agrégation

Certains services web proposent également d'agréger du contenu provenant d'autres plates-formes (Facebook, Twitter, blogs, etc.).

Les jeux en ligne
Internet représente également un vaste terrain de jeux, qu'il s'agisse des jeux classiques comme Space Invaders, que l'on trouvera sur des plates-formes telles que Doof ou Pogo, ou les jeux sociaux, comme Zynga ou Mytopia. Les plus populaires restent sans doute les jeux en ligne de stratégie ou de combat, et notamment les jeux de rôles massivement multijoueurs (MMORPG) comme World of Warcraft.

Les outils de recherche

Trois types d'outils permettent actuellement de lancer des recherches sur le Web : les moteurs de recherche, les annuaires et les métamoteurs.

Les moteurs de recherche

L'indexation des pages web est réalisée par des robots. L'interrogation passe par des requêtes portant sur un terme contenu ou associé à la page (voir le chapitre 4, « La puissance des moteurs de recherche »).

Les annuaires

Contrairement aux moteurs de recherche, les annuaires sont gérés par des humains. Les webmasters doivent soumettre leurs sites pour qu'ils soient référencés. Naturellement, toutes les demandes ne sont pas forcément exaucées: des choix éditoriaux sont exercés. Les annuaires indexent uniquement les références des sites. La navigation passe par une arborescence de catégories, mais aussi par la recherche par termes.

En réalité, les annuaires ont quasi disparu de la surface du Web, laissant place aux moteurs de recherche. Certains subsistent comme Dmoz (http:// www.dmoz.org) ou Yahoo! Directory (kcp://dir.yahoo.com), pouvant apporter une recherche complémentaire.

Les métamoteurs

Ils permettent de lancer des recherches sur plusieurs moteurs simultanément

Outils Les applications et services en ligne

Autre catégorie de sites web un peu à part (car non pourvoyeuse d'informations directement), les applications en ligne proposent (souvent gratuitement) des services équivalents au logiciel à installer sur votre ordinateur. Par exemple, au lieu d’utiliser une suite bureautique en local comme Microsoft Office, vous pouvez utiliser Google Documents. Pour remplacer les logiciels de messagerie, il existe des web-mails (Hotmail Yahoo!..), etc. Dans la mène catégorie, on peut aussi placer les plates-formes de blogsen ligne comme WordPress.com ou OverBlog.

Naturellement pour utiliser ces services, vous devez disposer d’une connexion Internet. Par contre, vos données sont stockées sur un serveur tiers, ce qui peut poser, le cas échéant, des problèmes de confidential ité. D’autant plus que l’accès se fait le plus souvent par une authentification par identifiant et mot de passe. Ces outils pourront, pour la plupart, servir aux veilleurs pour collaborer.