English

Palmarès des langues de la Toile

Juin 1997

L'équipe de Babel (une initiative conjointe d'Alis Technologies et de l'Internet Society) annonce la première étude d'envergure sur la place réelle des langues sur l'Internet.

Jusqu'à quel point l'Internet - et plus précisément le Web - est-il dominé par l'anglais ? Cette hégémonie perçue se traduit-elle dans les faits ? Quelles autres langues occupent une place importante sur la Toile ?

Jusqu'à présent aucune étude de grande ampleur sur la distribution des langues n'avait été effectuée. C'est dorénavant chose faite. De plus, l'étude sera mise à jour chaque semestre.

Méthodologie

Pour s'assurer que les résultats soient aussi peu biaisés que possible, l'équipe Babel a développé une méthode rigoureuse d'exploration du Web.

Trouver les machines
Le processus débute par le sondage au hasard de l'Internet au moyen d'un générateur de nombres aléatoires. Chaque nombre est considéré comme une adresse IP, et un programme rapide détermine si une machine existe à cette adresse en utilisant le protocole ICMP (ping). En sondant plus de 30 millions d'adresses potentielles, nous avons ainsi débusqué près de 60 000 machines.

NOTE — du nombre total d'adresses disponibles, du nombre sondé et du nombre de machines trouvées, on peut calculer qu'il y a aujourd'hui environ 7 166 000 machines accessibles sur l'Internet. Ceci exclut nécessairement les très nombreuses machines cachées derrière des pare-feu, qui ne répondent pas au ping, mais ne sont fort probablement pas des serveurs Web visibles de l'Internet public.
Trouver les serveurs
L'étape suivante consiste à trouver des serveurs Web ; toutes les machines ne sont pas des serveurs ! Un second programme prend donc la liste des machines, dont on ne sait qu'elles existent, et détermine si un serveur HTTP y tourne. Plus de huit mille machines ont répondu positivement, et c'est sur ces machines que s'est concentrée la dernière étape du processus : l'analyse linguistique.

NOTE — du nombre total d'adresses disponibles, du nombre sondé et du nombre de serveurs trouvés, on peut calculer qu'il y a aujourd'hui environ 1 007 000 serveurs Web sur l'Internet.
Analyser les pages
Le programme d'analyse linguistique récupère les pages publiées par chaque serveur (dans un premier temps, nous avons dû nous limiter aux pages d'accueil, sans explorer le site) et enlève le balisage HTML. S'il y a assez de texte (plus de 500 caractères), le programme d'analyse le soumet à un logiciel d'identification automatique de langue. Ce logiciel, SILC, est capable de découvrir la langue et le jeu de caractères d'un document fourni en utilisant les techniques les plus pointues de la linguistique, de l'Internet et de la cryptoanalyse. Le logiciel de détection sait reconnaître dix-sept des plus grandes langues du monde (voir la liste en annexe) en une variété de codages (jeux de caractères).
Vérifier
Cette dernière étape (très ennuyeuse pour l'équipe Babel) consiste à visiter à la main (à l'aide d'un fureteur) un échantillon des pages, et à comparer la détection automatique avec une identification de visu. Près de 200 pages ont été vérifiées jusqu'à maintenant, permettant de confirmer la fiabilité général du logiciel de détection et des traitements effectués, mais révélant tout de même certaines lacunes. Des facteurs de correction ont été estimés à partir de ces (faibles) statistiques, facteurs dont l'avant-dernière colonne du tableau des résultats tient compte. Une analyse des sources d'erreur se trouve en annexe.

Palmarès préliminaire (seules les pages d'accueil dépouillées)

Sur 3239 pages d'accueil ayant fourni un texte de plus de 500 caractères, voici le classement en ordre décroissant des langues les plus fréquemment trouvées sur le Web. La dernière colonne donne le nombre estimé de serveurs Web significatifs (plus de 500 caractères de texte) dans chaque langue, calculé en fonction du nombre total d'adresses IP, du nombre sondé et du nombre de serveurs trouvé en cette langue.
RangLangueNombre
de pages
Pourcentage Pourcentage
corrigé
Nombre
de serveurs
estimé
1anglais2 72284,0 % 82,3 %332 778
2allemand1474,5 % 4,0 %17 971
3japonais1013,1 % 1,6 %12 348
4français591,8 % 1,5 %7 213
5espagnol381,2 % 1,1 %4 646
6suédois351,1 % 0,6 %4 279
7italien311,0 % 0,8 %3 790
8portugais210,7 % 0,7 %2 567
9néerlandais200,6 % 0,4 %2 445
10norvégien190,6 % 0,3 %2 323
11finnois140,4 % 0,3 %1 712
12tchèque110,3 % 0,3 %1 345
13danois90,3 % 0,3 %1 100
14russe80,3 % 0,1 %978
15malais40,1 % 0,1 %489
aucune ou
inconnue
(correction)
5,6 %
Total 3 239100 % 100 %395 984

La liste complète des 3 239 pages visitées, avec la langue attribuée à chaque page, est disponible ici.

Ce travail est toujours en cours. Nous augmentons le nombre de sites, améliorons le pré-traitement et surtout explorons les sites visités au lieu d'analyser seulement les pages d'accueil. Et nous continuons à vérifier à la main une fraction des pages pour assurer la fiabilité. Les résultats définitifs, reprenant toutes les pages des sites visités, seront disponibles ici dans quelques temps.


Annexes

Liste des langues traitées par le logiciel de détection
1. allemand 7. français 13. portugais
2. anglais 8. italien 14. russe
3. chinois 9. japonais 15. serbo-croate
4. danois 10. malais 16. suédois
5. espagnol 11. néerlandais 17. tchèque
6. finnois 12. norvégien

Sources d'erreur

Malgré tous nos soins, il est inévitable que des sources d'erreur entachent nos résultats, dans certains cas de façon difficile à quantifier. Nous énumérons ici quelques sources identifiées, de manière à permettre au lecteur de former son jugement sur leur importance et sur la validité du résultat final.

La première source est à l'heure actuelle l'analyse exclusive de la page d'accueil de chaque serveur. Or tout internaute non-anglophone sait fort bien qu'une (ou plusieurs) page d'accueil en une autre langue se cache souvent derrière un hyperlien dans une page d'accueil en anglais, surtout si cette autre langue est dominante là ou se trouve le serveur. Nous travaillons à éliminer cette source d'erreur évidente en explorant les sites au-delà des pages d'accueil.

D'autre sources d'erreur plus subtiles se trouvent dans la manière de débusquer les machines, et parmi elles les serveurs HTTP. Notre méthode de détection repose sur l'écho d'un paquet ICMP ; or l'Internet n'est pas un réseau fiable à 100 %, et des paquets se perdent, la probabilité d'une telle perte augmentant avec la distance. Les machines lointaines (de Montréal) ont donc un risque légèrement plus élevé de n'être pas détectées, et donc de biaiser notre échantillon en faveur des régions proches. À noter que la distance en question est en terme de réseau, donc pas tout à fait la même que la distance géographique. Nous croyons que cette source d'erreur est pratiquement négligeable.

La détection des serveurs souffre d'un problème semblable : une connexion est tentée, avec un maximum de temps d'attente en absence de réponse. Les serveurs lointains, situés au-delà de réseaux congestionnés, peu rapides ou surchargés riquent donc plus d'être ignorés. Là encore il y a risque d'un échantillon quelque peu biaisé, mais nous croyons que notre temps d'attente est suffisamment long pour réduire ce risque à presque néant.

Finalement, l'étape d'analyse est aussi source d'erreur. Le logiciel de détection n'est pas parfait, et il a parfois affaire à des pages qui ne sont dans aucune langue (par ex. un répertoire de noms de fichiers cryptiques, ou la liste des utilisateurs d'une machine SGI). Notre étape de vérification a posteriori permet de quantifier ces erreurs, d'estimer des facteurs de correction et d'ajuster les résultats en conséquence. Nous tentons aussi de peaufiner le programme de pré-traitement pour éviter ces problèmes a priori.



Retour vers la page principale

Le navigateur multilingue Tango assure l'affichage correct de toutes les langues de Babel. © 1997, Alis Technologies inc.

Réactions? Commentaires? Suggestions?   Écrivez-nous.