|
L'équipe de Babel (une initiative conjointe d'Alis Technologies et de
l'Internet Society) annonce la première étude d'envergure sur la place
réelle des langues sur l'Internet.
Jusqu'à quel point l'Internet - et plus précisément le Web - est-il
dominé par l'anglais ? Cette hégémonie perçue se traduit-elle dans les
faits ? Quelles autres langues occupent une place importante sur la
Toile ?
Jusqu'à présent aucune étude de grande ampleur sur la distribution des
langues n'avait été effectuée. C'est dorénavant chose faite. De plus, l'étude
sera mise à jour chaque semestre.
Méthodologie
Pour s'assurer que les résultats soient aussi peu biaisés que possible,
l'équipe Babel a développé une méthode rigoureuse d'exploration du Web.
Trouver les machines
Le processus débute par le sondage au hasard de l'Internet au moyen
d'un générateur de nombres aléatoires. Chaque nombre est considéré
comme une adresse IP, et un programme rapide détermine si une machine
existe à cette adresse en utilisant le protocole ICMP (ping). En sondant
plus de 30 millions d'adresses potentielles, nous avons ainsi
débusqué près de 60 000 machines.
NOTE — du nombre total d'adresses disponibles, du nombre
sondé et du nombre de machines trouvées, on peut calculer qu'il y a
aujourd'hui environ 7 166 000 machines accessibles sur
l'Internet. Ceci exclut nécessairement les très nombreuses machines
cachées derrière des pare-feu, qui ne répondent pas au ping, mais ne
sont fort probablement pas des serveurs Web visibles de l'Internet
public.
Trouver les serveurs
L'étape suivante consiste à trouver des serveurs Web ; toutes les
machines ne sont pas des serveurs ! Un second programme prend
donc la liste des machines, dont on ne sait qu'elles existent, et
détermine si un serveur HTTP y tourne. Plus de huit mille machines ont
répondu positivement, et c'est sur ces machines que s'est concentrée
la dernière étape du processus : l'analyse linguistique.
NOTE — du nombre total d'adresses disponibles, du nombre
sondé et du nombre de serveurs trouvés, on peut calculer qu'il y a
aujourd'hui environ 1 007 000 serveurs Web sur l'Internet.
Analyser les pages
Le programme d'analyse linguistique récupère les pages publiées
par chaque serveur (dans un premier temps, nous avons dû nous
limiter aux pages d'accueil, sans explorer le site) et enlève le
balisage HTML. S'il y a assez de texte (plus de 500 caractères),
le programme d'analyse le soumet à un logiciel d'identification
automatique de langue. Ce logiciel,
SILC,
est capable de découvrir la langue
et le jeu de caractères d'un document fourni en utilisant les
techniques les plus pointues de la linguistique, de l'Internet et de
la cryptoanalyse. Le logiciel de détection sait reconnaître dix-sept
des plus grandes langues du monde (voir la
liste en annexe) en une variété de codages
(jeux de caractères).
Vérifier
Cette dernière étape (très ennuyeuse pour l'équipe Babel) consiste à
visiter à la main (à l'aide d'un fureteur) un échantillon des
pages, et à comparer la détection automatique avec une identification
de visu. Près de 200 pages ont été vérifiées jusqu'à maintenant,
permettant de confirmer la fiabilité général du logiciel de détection
et des traitements effectués, mais révélant tout de même certaines
lacunes. Des facteurs de correction ont été estimés à partir de ces
(faibles) statistiques, facteurs dont l'avant-dernière colonne du tableau
des résultats tient compte. Une analyse des sources d'erreur se trouve
en annexe.
Palmarès préliminaire (seules les pages d'accueil dépouillées)
Sur 3239 pages d'accueil ayant fourni un texte de plus de 500
caractères, voici le classement en ordre décroissant des langues les
plus fréquemment trouvées sur le Web. La dernière colonne donne le nombre
estimé de serveurs Web significatifs (plus de 500 caractères de texte)
dans chaque langue, calculé en fonction du nombre total d'adresses IP, du
nombre sondé et du nombre de serveurs trouvé en cette langue.
| Rang | Langue | Nombre de pages | Pourcentage |
Pourcentage corrigé | Nombre de serveurs estimé |
| 1 | anglais | 2 722 | 84,0 % |
82,3 % | 332 778 |
| 2 | allemand | 147 | 4,5 % |
4,0 % | 17 971 |
| 3 | japonais | 101 | 3,1 % |
1,6 % | 12 348 |
| 4 | français | 59 | 1,8 % |
1,5 % | 7 213 |
| 5 | espagnol | 38 | 1,2 % |
1,1 % | 4 646 |
| 6 | suédois | 35 | 1,1 % |
0,6 % | 4 279 |
| 7 | italien | 31 | 1,0 % |
0,8 % | 3 790 |
| 8 | portugais | 21 | 0,7 % |
0,7 % | 2 567 |
| 9 | néerlandais | 20 | 0,6 % |
0,4 % | 2 445 |
| 10 | norvégien | 19 | 0,6 % |
0,3 % | 2 323 |
| 11 | finnois | 14 | 0,4 % |
0,3 % | 1 712 |
| 12 | tchèque | 11 | 0,3 % |
0,3 % | 1 345 |
| 13 | danois | 9 | 0,3 % |
0,3 % | 1 100 |
| 14 | russe | 8 | 0,3 % |
0,1 % | 978 |
| 15 | malais | 4 | 0,1 % |
0,1 % | 489 |
| aucune ou inconnue (correction) | | |
5,6 % | |
| Total | | 3 239 | 100 % |
100 % | 395 984 |
La liste complète des 3 239 pages visitées, avec la langue attribuée à chaque
page, est disponible ici.
Ce travail est toujours en cours. Nous augmentons le nombre de sites,
améliorons le pré-traitement et surtout explorons les sites visités au
lieu d'analyser seulement les pages d'accueil. Et nous continuons à
vérifier à la main une fraction des pages pour assurer la fiabilité.
Les résultats définitifs, reprenant toutes les pages des sites visités,
seront disponibles ici dans quelques temps.
Annexes
Liste des langues traitées par le logiciel de détection
| 1. allemand |
7. français |
13. portugais |
| 2. anglais |
8. italien |
14. russe |
| 3. chinois |
9. japonais |
15. serbo-croate |
| 4. danois |
10. malais |
16. suédois |
| 5. espagnol |
11. néerlandais |
17. tchèque |
| 6. finnois |
12. norvégien |
Sources d'erreur
Malgré tous nos soins, il est inévitable que des sources d'erreur entachent
nos résultats, dans certains cas de façon difficile à quantifier. Nous
énumérons ici quelques sources identifiées, de manière à permettre au lecteur
de former son jugement sur leur importance et sur la validité du résultat
final.
La première source est à l'heure actuelle l'analyse exclusive de la page
d'accueil de chaque serveur. Or tout internaute non-anglophone sait fort
bien qu'une (ou plusieurs) page d'accueil en une autre langue se cache
souvent derrière un hyperlien dans une page d'accueil en anglais, surtout
si cette autre langue est dominante là ou se trouve le serveur. Nous
travaillons à éliminer cette source d'erreur évidente en explorant les
sites au-delà des pages d'accueil.
D'autre sources d'erreur plus subtiles se trouvent dans la manière de
débusquer les machines, et parmi elles les serveurs HTTP. Notre méthode
de détection repose sur l'écho d'un paquet ICMP ; or l'Internet n'est
pas un réseau fiable à 100 %, et des paquets se perdent, la probabilité
d'une telle perte augmentant avec la distance. Les machines lointaines
(de Montréal) ont donc un risque légèrement plus élevé de n'être pas
détectées, et donc de biaiser notre échantillon en faveur des régions
proches. À noter que la distance en question est en terme de réseau, donc
pas tout à fait la même que la distance géographique. Nous croyons que
cette source d'erreur est pratiquement négligeable.
La détection des serveurs souffre d'un problème semblable : une
connexion est tentée, avec un maximum de temps d'attente en absence de
réponse. Les serveurs lointains, situés au-delà de réseaux congestionnés,
peu rapides ou surchargés riquent donc plus d'être ignorés. Là encore il
y a risque d'un échantillon quelque peu biaisé, mais nous croyons que notre
temps d'attente est suffisamment long pour réduire ce risque à presque
néant.
Finalement, l'étape d'analyse est aussi source d'erreur. Le logiciel de
détection n'est pas parfait, et il a parfois affaire à des pages qui ne
sont dans aucune langue (par ex. un répertoire de noms de fichiers
cryptiques, ou la liste des utilisateurs d'une machine SGI). Notre
étape de vérification a posteriori permet de quantifier ces erreurs,
d'estimer des facteurs de correction et d'ajuster les résultats en
conséquence. Nous tentons aussi de peaufiner le programme de
pré-traitement pour éviter ces problèmes a priori.
|