lalahop

Sécuriser le routage sur Internet

Aujourd'hui, je vous propose un long billet sur le routage inter-domaine, sa sécurité actuelle et RPKI+ROA.

Attention : RPKI+ROA est encore un mécanisme tout jeune. Cela signifie que, bien que les concepts de base ne changeront pas et que ce travail date de mai 2013, certaines informations contenues dans ce travail vont devenir obsolètes à plus ou moins long terme.

Pour lire la version HTML, il suffit de cliquer sur le lien "Lire la suite" (et/ou de poursuivre ci-dessous). Pour ceux qui préfèrent lire un si gros pavé en PDF, c'est par là : Sécuriser le routage sur Internet.

Je mets également les sources LaTeX à votre disposition. Ces sources LaTeX peuvent servir de base à d'autres documents. Sources.

Vous pouvez également récupérer la maquette (vous comprendrez la raison de son existence en lisant le pavé). Elle peut servir pour mieux visualiser le fonctionnement de RPKI+ROA ou pour simplement tester ses différents composants. Elle repose sur LXC. Le tar contient la maquette compressée avec LZMA ainsi que les instructions d'utilisation au format texte. Maquette RPKI-ROA. Les fichiers de configurations principaux pour refaire une maquette from scratch sont disponibles ici : Fichiers de configuration principaux de ma maquette RPKI-ROA.

Et pour terminer, vous pouvez également récupérer le visuel projeté durant ma soutenance et ses sources. Support visuel soutenance | Sources LaTeX support visuel soutenance.

Si vous voulez tout récupérer (maquette, sources, pdf) en un seul coup, c'est par là : Sécuriser le routage sur Internet - Pack all-in-one.

Le tout (les sources LaTeX, les pdf, les images, la maquette, ...) est diffusé sous la licence habituelle de ce blog, à savoir : CC-BY-SA 3.0 France.

Lire la suite >>

Mettre en place un Route Reflector BGP avec Quagga pour s’amuser

Un court billet sur comment monter un Route Reflector avec Quagga sur une maquette.

Les termes Route Reflector (RR) et Route Server (RS) sont souvent confondus et on lit de tout sur le web, même sur les sites web qui disposent d'un bon crédit de fiabilité (univ-*.fr, *.edu) : « RR c'est pour monter un looking glass derrière, de la pure collecte passive, RS c'est pour redistribuer les routes », « RR c'est au contraire collecte + redistribution intelligente », « un RR fait du traitement, un RS redistribue "as-is", dans l'état ». Bref, personne ne semble être d'accord.

Pour y voir plus clair, je vous propose les deux ressources suivantes :

Personnellement, je retiens ce qui suit :

  • Les deux sont une solution (plus ou moins complexe, plus ou moins convenable en fonction de la topologie d'un réseau) au problème du full-mesh : que ce soit en interne d'un AS ou sur un GIX, établir des sessions iBGP (ou eBGP sur un GIX) entre tous les routeurs qui causent BGP en présence, c'est juste impossible, ça ne passe pas à l'échelle.
  • Un Route Reflector fait de la redistribution "as-is", dans l'état. Le choix des meilleures routes est donc centralisé, ce qui n'est pas toujours convenable selon l'emplacement du RR dans le cluster et dans l'AS (meilleure route pour un préfixe du point de vue du RR ne veut pas dire que ce soit forcement la meilleure route pour un client, possibilité de boucle, ...).
  • Un Route Server fait aussi de la redistribution mais effectue un traitement des annonces qu'il reçoit pour chacun de ses clients. On a donc plusieurs RIB, une par client du RS. Chacune contient les meilleures routes pour un client donné. Le client participe au choix de la meilleure route pour chaque préfixe connu grâce à ses filtres (route-map, ...) en entrée. La décision n'est donc pas centralisée.
  • Un RS est plus approprié pour un GIX, un RR est plus approprié pour de la redistribution interne à un AS.

Donc nous voulons bien mettre en place un Route Reflector : un truc qui redistribue bêtement (sans traitement) toutes les routes entre tous les routeurs d'un même AS, avec des sessions iBGP. On veut une topologie avec deux RR. Les deux RR sont reliés directement entre eux. Chaque autre routeur de cette topologie monte une session iBGP avec chacun des RR, pour la redondance.

Pour l'instant, nous n'avons pas de sessions eBGP entre nos RR et l'extérieur.

Pour ceux qui ont le cœur à creuser le paramètre « cluster-id » : Understanding BGP Originator-ID and Cluster-ID. Nous ne l'utiliserons pas ici.

Informations utiles pour s'y retrouver et comprendre les fichiers de config' :

  • IP du premier RR (loopback) : 198.18.3.1/32
  • IP du premier RR (loopback) : 198.18.3.15/32
  • Clients (loopbacks) : 198.18.3.2-30/32
  • Chaque client annonce un /30 subnetté dans 198.19.0.0/16
  • Les adresses des loopback sont prises dans 198.18.3/24. 198.18.0.0/16 est annoncé via un IGP. Mais ce n'est pas ce qui nous intéresse ici.

Voici les directives de configuration qu'il faut utiliser pour monter un Route Reflector avec Quagga. Source : Virtual Laboratory Networking Exercises – BGP Route Reflector Configuration.

Fichier « bgpd.conf » du premier RR :

hostname RR1
 
line vty
	no login
 
log syslog warnings
 
 
router bgp 64500
        # Qui suis-je ?
	bgp router-id 198.18.3.1
 
 
	## RR2
	neighbor 198.18.3.15 remote-as 64500
	neighbor 198.18.3.15 description RR2
	neighbor 198.18.3.15 update-source 198.18.3.1
 
 
	## Clients
	neighbor 198.18.3.2 remote-as 64500
	neighbor 198.18.3.2 description Client-1
	neighbor 198.18.3.2 route-reflector-client
	neighbor 198.18.3.2 update-source 198.18.3.1
 
        neighbor 198.18.3.3 remote-as 64500
	neighbor 198.18.3.3 description Client-2
	neighbor 198.18.3.3 route-reflector-client
	neighbor 198.18.3.3 update-source 198.18.3.1
 
        [...]

Fichier « bgpd.conf » du second RR :

hostname RR2
 
line vty
	no login
 
log syslog warnings
 
 
router bgp 64500
        # Qui suis-je ?
	bgp router-id 198.18.3.15
 
 
	## RR1
	neighbor 198.18.3.1 remote-as 64500
	neighbor 198.18.3.1 description RR1
	neighbor 198.18.3.1 update-source 198.18.3.15
 
 
	## Clients
	neighbor 198.18.3.2 remote-as 64500
	neighbor 198.18.3.2 description Client-1
	neighbor 198.18.3.2 route-reflector-client
	neighbor 198.18.3.2 update-source 198.18.3.15
 
	neighbor 198.18.3.3 remote-as 64500
	neighbor 198.18.3.3 description Client-2
	neighbor 198.18.3.3 route-reflector-client
	neighbor 198.18.3.3 update-source 198.18.3.15
 
        [...]

Fichier « bgpd.conf » d'un client (c'est pareil pour tous les autres clients) :

hostname C1
 
line vty
	no login
 
log syslog warnings
 
 
router bgp 64500
        # Qui suis-je ?
	bgp router-id 198.18.3.2
	network 198.19.0.0/30
 
 
        ## RR
	neighbor 198.18.3.1 remote-as 64500
	neighbor 198.18.3.1 description RR1
	neighbor 198.18.3.1 update-source 198.18.3.2
 
	neighbor 198.18.3.15 remote-as 64500
	neighbor 198.18.3.15 description RR2
	neighbor 198.18.3.15 update-source 198.18.3.2

Maquetter des réseaux avec LXC

Ce billet va tenter de résumer la manière dont j'utilise LXC pour créer et utiliser des maquettes de grande taille pour tester des choses (protocoles, logiciels, ...) ayant trait aux réseaux informatiques.

Table des matières

Pourquoi maquetter ?

Cela peut être utile de simuler la présence et les interactions d'un nouvel élément avant sa mise en production effective sur le réseau physique voire de maquetter un nouveau réseau complet pour voir s'il répond aux objectifs fixés avant d'acheter le matériel.

Maquetter permet aussi de découvrir et d'apprendre : mettre en œuvre des techniques, des protocoles, ... dans une maquette permet de les découvrir plus efficacement que d'étudier simplement la théorie.

Maquetter est aussi utile dans la recherche, pour faire des expériences et les rendre reproductibles, savoir quels facteurs sont aggravants (en les isolant les uns après les autres), trouver des solutions et les tester.

Les avantages de LXC pour maquetter

Bien que LXC puisse être utilisé pour isoler des applications, notamment pour un usage serveur, il présente également des avantages pour maquetter les machines d'un réseau.

LXC reste plus léger que de la virtualisation de type KVM : un ordinateur portable relativement modeste avec 3G de RAM fait tourner une maquette de 40 routeurs qui font de l'OSPF, du BGP et s'échangent un peu de trafic.

Dans un milieu plus "apprentissage/découverte", LXC est meilleur que Netkit (et ses frontend graphiques comme Marionnet), à mon avis, car LXC est maintenu activement et il offre la possibilité d'utiliser un noyau plus récent (2.26 avec Netkit, 2.19 avec Marionnet), ce qui n'est pas négligage quand on veut tester des fonctionnalités nouvelles ou quand certaines applications (notamment des démons) ont trop évoluées et ne sont plus capables de se binder sur un vieux noyau (il me semble avoir vu un cas avec Apache httpd). Sans compter la facilité de modification du système de base dans le cas de LXC (alors que c'est un véritable calvaire avec Netkit). Je ne sais pas ce qu'apporte (ou non) LXC comparé à User Mode Linux utilisé directement, sans passer par Netkit. ÉDIT du 19/09/2013 à 19h05 : Comme le mentionne Kartoch dans les commentaires, on peut utiliser Netkit sans avoir les droits root (modulo que /dev/shm ne doit pas être en noexec), ce qui a son intérêt dans une salle de TP à la fac/IUT/autre. Fin de l'édit

Néanmoins, autant dans un usage d'isolation des applications sur un serveur, je peux entrevoir les limites de LXC, la sécurité (un conteneur compromis qui permettrait de remonter au noyau et de mettre le zouk dans le reste du système/des autres conteneurs, cela ne me surprendrait pas), autant j'avoue ne pas savoir dans quels cas le fait que ce soit le même noyau dans l'hôte et dans tous les conteneurs est nuisible à un maquettage. Je peux simplement dire que cela me semble être utile dans les expériences aux timings serrés ou pour faire des mesures car la vision du temps est identique dans tous les conteneurs : l'instant T est le même dans tous les conteneurs.

Mettre des conteneurs LXC en réseau

Pour relier les conteneurs entre eux, on peut utiliser un ou plusieurs bridges. C'est intégré de base dans LXC et cela permet de voir tout le trafic de la maquette en dumpant simplement le trafic qui passe sur le bridge avec tcpdump/wireshark. Très pratique pour débugger, faire des stats, ... De plus, comme un bridge mémorise les MAC, comme un switch physique, le trafic unicast n'est pas transféré aux conteneurs qui n'en sont pas les destinataires.

Si l'on a besoin de fonctionnalités plus avancées (VLAN, agrégation de liens, ...), on peut utiliser Open vSwitch. J'avais testé pour découvrir : la communication entre conteneurs LXC juste marche. J'ai entendu dire que VDE ne fonctionnait pas avec les interfaces TAP de LXC. N'ayant jamais eu besoin de plus qu'un bridge, je n'ai jamais vérifié.

J'ignore s'il est possible d'interfacer LXC avec des routeurs Cisco/Juniper émulés. Dynamips semble pouvoir utiliser VDE mais comme LXC semble ne pas pouvoir ...

Adressage

Pour adresser/nommer votre maquette, je vous conseille fortement d'utiliser les ressources réservées à l'IANA : IPv4/v6, ASN, TLD, ... Cela fait sérieux et évite les collisions avec le réseau local (quand vous aurez eu à dépatouiller un tel cas, vous vous mettrez à utiliser les ressources réservées, je vous le garantit !).

Rendre la maquette plus réaliste

Au niveau réseau, Netem (network emulator) permet de rajouter de la latence, de la perte, de la corruption, ... sur les liens entre les différents conteneurs LXC. Pour que cela ne fasse pas trop artificiel, il est possible de faire varier la latence, la perte, ... en utilisant une distribution à la normale. On trouve plein d'exemples sur le web : Netem | The Linux Foundation, Simuler un lien WAN sous Linux chez NicoLargo, ... Netem est juste indispensable dès lors que l'on essaye de reproduire des réseaux réels ou, au moins, des conditions réelles.

Au niveau de chaque conteneur, les cgroups (control groups) permettent d'affecter des priorités d'accès aux ressources (CPU, réseau, ...) différentes pour chaque conteneur. Cela permet de favoriser un conteneur plutôt qu'un autre. Dans le cadre de maquettes réseau, cela permet de tenir compte des disparités que l'on trouve sur un réseau physique : on n'a des modèles de routeurs différents avec des capacités de traitement différentes ... Cela permet aussi de mesurer le comportement d'algorithmes de routage dans des situations défavorables. LXC lui-même est basé sur les cgroups. Je n'ai pas encore utilisé les cgroups dans une maquette donc je n'ai pas de ressources à conseiller plus que d'autres.

Automatiser le tout

Je vais vous montrer comment j'automatise la création et la gestion d'une grosse maquette avec des conteneurs LXC. L'ennui, c'est qu'il y a du besoin spécifique dedans (routing, forward, ...). Je vais essayer de tout bien vous expliquer pour que vous puissiez adapter à vos projets.

Preseed-file

Mes conteneurs sont tous basés sur Debian puisque Debian, c'est la vie. Pour créer des dizaines de conteneurs LXC à la chaîne, il est nécessaire d'avoir un preseed-file bien foutu qui configurera une bonne partie du conteneur (login, logiciels supplémentaires à installer, ...) lors de la création dudit conteneur sans poser aucune question dans une interface semi-graphique (ça ne passe pas à l'échelle ce genre de chose). Or, un preseed-file bien foutu, qui juste marche, bah ça ne court pas le web.

Voici celui que j'utilise, issu de quelques trouvailles personnelles minoritaires et de la fusion de ces deux modèles : Creating a Debian sliver template sur wiki.confine-project.eu et Debian wheezy preseed file for lxc-create -t debian lxc version 0.9.0.alpha2.

Pour le résumer :

  • Les conteneurs auront l'architecture amd64 et seront créés à partir du dépôt sid ;
  • Packages supplémentaires : less iputils-ping iptables telnet traceroute wget nano rsyslog bash-completion quagga et openssh-server ;
  • Utilisation d'un bridge nommé br0 ;
  • MAC fixe (on la remplacera plus loin vu que LXC ne sait pas faire tout seul) ;
  • On ne supprime pas la capabilitie « sys_admin » car elle est nécessaire à Zebra ;
  • On ne crée pas un compte utilisateur normal ;
  • Le mot de passe root est « toor » ;
  • On utilise le fuseau horaire « Europe/Paris » ;
# # Debian preseed file for CONFINE sliver template
# Tested on lxc 0.9.0~alpha3-2 and live-debconfig 4.0~a17.
 
# ## Distribution and packages
lxc-debconfig lxc-debconfig/distribution string sid
lxc-debconfig lxc-debconfig/architecture string amd64
lxc-debconfig lxc-debconfig/archives multiselect none
lxc-debconfig lxc-debconfig/mirror string ftp://ftp2.fr.debian.org/debian/
lxc-debconfig lxc-debconfig/archive-areas multiselect main
lxc-debconfig lxc-debconfig/packages string less iputils-ping iptables telnet traceroute wget nano rsyslog bash-completion quagga
 
# ## Network
# Please adjust to the name of the bridge used in your host.
lxc-debconfig lxc-debconfig/eth0-bridge string br0
# Private MAC address, to be replaced on sliver creation.
lxc-debconfig lxc-debconfig/eth0-mac string 52:C0:A1:AB:BA:1A
# Private veth interface name, to be replaced on sliver creation.
#lxc-debconfig lxc-debconfig/eth0-veth string veth-sliver
 
# ## Other container options
lxc-debconfig lxc-debconfig/auto boolean false
# Use live-debconfig to further configure the container.
lxc-debconfig lxc-debconfig/lxc-debconfig-with-live-debconfig boolean true
lxc-debconfig lxc-debconfig/apt-recommends boolean false
# Avoid debconf questions.
lxc-debconfig lxc-debconfig/debconf-frontend select noninteractive
## (default value)
##lxc-debconfig lxc-debconfig/debconf-priority string medium
 
# For running commands in the container and host at the end.
#lxc-debconfig lxc-debconfig/late-command string
#lxc-debconfig lxc-debconfig/late-host-command string 
 
 
# Capabilities to be dropped from the container.
lxc-debconfig lxc-debconfig/capabilities string \
    audit_control audit_write ipc_lock mac_admin mac_override \
    sys_module sys_pacct sys_rawio sys_resource sys_time \
    syslog wake_alarm
 
# For mounting filesystems in container.
#lxc-debconfig lxc-debconfig/mount0/entry string
##lxc-debconfig lxc-debconfig/mount0/comment string \
##    Bind mount host path in container
 
# ## Live-debconfig scripts configuration
 
# (For some reason live-debconfig options must be on a single line
# or the following options are not interpreted correctly.)
 
live-debconfig live-debconfig/components multiselect openssh-server, passwd
 
# ### LXC (sysvinit)
# Perform LXC tweaks in the container.
live-debconfig live-debconfig/sysvinit/lxc-enable boolean true
## (default values)
##live-debconfig live-debconfig/sysvinit/lxc-consoles string 6
##live-debconfig live-debconfig/sysvinit/lxc-disable-services string checkroot.sh hwclockfirst.sh hwclock.sh kmod module-init-tools mountall.sh mountkernfs.sh umountfs umountroot
 
### Hardware clock access (util-linux)
live-debconfig live-debconfig/util-linux/hwclockaccess boolean false
 
# ### Host name (hostname)
# Host name, to be replaced on sliver creation.
live-debconfig live-debconfig/hostname/hostname string sliver
 
# ### Network configuration (ifupdown)
live-debconfig live-debconfig/ifupdown/lo-comment string The loopback interface
live-debconfig live-debconfig/ifupdown/lo-enable boolean true
 
# Private interface method, to be replaced on sliver creation.
live-debconfig live-debconfig/ifupdown/eth0-ipv4-comment string The private interface
live-debconfig live-debconfig/ifupdown/eth0-ipv4-method select dhcp
 
# For static configuration of network interfaces.
##live-debconfig live-debconfig/ifupdown/eth0-ipv4-method select static
##live-debconfig live-debconfig/ifupdown/eth0-ipv4-address string 1.2.3.4
##live-debconfig live-debconfig/ifupdown/eth0-ipv4-netmask string 255.255.255.0
##live-debconfig live-debconfig/ifupdown/eth0-ipv4-gateway string 1.2.3.1
##live-debconfig live-debconfig/ifupdown/eth0-ipv4-network string 1.2.3.0
##live-debconfig live-debconfig/ifupdown/eth0-ipv4-broadcast string 1.2.3.255
##live-debconfig live-debconfig/ifupdown/eth0-ipv4-mtu string 1500
##live-debconfig live-debconfig/ifupdown/eth0-ipv4-post-up string post-command
 
# For static configuration of DNS.
##live-debconfig live-debconfig/ifupdown/nameserver-addresses string 5.6.7.8 9.10.11.12
##live-debconfig live-debconfig/ifupdown/nameserver-domain string example.com
##live-debconfig live-debconfig/ifupdown/nameserver-search string lan example.com
##live-debconfig live-debconfig/ifupdown/nameserver-options string debug
 
# ### Users (passwd)
live-debconfig live-debconfig/passwd/shadow boolean true
live-debconfig live-debconfig/passwd/root-login boolean true
live-debconfig live-debconfig/passwd/make-user boolean false
live-debconfig live-debconfig/passwd/root-password string toor
live-debconfig live-debconfig/passwd/root-password-again string toor
 
# FUSEAU HORAIRE
tzdata tzdata/Areas select Europe
tzdata tzdata/Zones/Etc select UTC
tzdata tzdata/Zones/Europe select Paris

Depuis peu, il n'est plus possible d'utiliser un preseed-file avec le template Debian sauf à utiliser le package « lxc » qui se trouve dans le dépôt « experimental » de Debian. Voir : 0.9.0~alpha3-2+deb8u1 : “lxc” package : Debian .

Scripts

Ensuite, il faut des scripts pour automatiser la création, le démarrage, l'arrêt et l'éventuelle destruction des conteneurs. Ci-dessus, vous trouverez les scripts que j'utilise. Ce n'est pas du grand art mais ça fait ce qui doit être fait.

Commun

Commun est un fichier qui sert à positionner les variables et les tests utiles à plusieurs scripts comme le nom de tous les conteneurs de la maquette LXC ou vérifier les droits.

MACHINES="R1 R2 R3 R4"
 
if [ $USER != "root" ]
then
	echo "Vous devez exécuter ce script en étant root."
	exit 1
fi
Créer

Pour que vous puissiez comprendre ce script, je dois vous expliquer comment je hiérarchise les différents éléments qui permettent de créer la maquette.

Racine de la maquette
|-- network
|-- routing
|-- scripts
|-- tests

Network contient des fichiers nommés « config.$NOM_DU_ROUTER ». Chacun d'entre eux contient les instructions qui permettent de mettre en place le réseau sous LXC (« lxc.network.type », « lxc.network.ipv4 », « lxc.network.hwaddr », ...). Elles seront ajoutées au fichier « config » du conteneur correspondant lors de la création de la maquette. C'est aussi dans ce dossier que je stocke un fichier « hosts » qui fait la correspondance entre le nom de mes machines (voir des interfaces quand j'ai besoin d'une telle granularité (exemple : « 198.18.0.1 eth0.r1.local. »)) et leur adresse IP "principale" (une loopback, par exemple).

Routing contient, quand j'en ai besoin, les fichiers de configuration de Quagga. Exemple : bgpd.conf, ospfd.conf, zebra.conf, ... Tous sont suffixés avec le nom du conteneur LXC sur lequel devra être mis le fichier. Exemple : « zebra.conf.R1 ». Ils seront copiés dans le dossier /etc/quagga lors de la création de la maquette.

Scripts contient tous les scripts shell de gestion de la maquette. Typiquement ceux que je suis en train de vous présenter. 😛

Tests contient des scripts ou des binaires qui permettent d'effectuer des tests sur la maquette. Le script bash « pingall » (voir plus bas) est typiquement un de ces moyens de test. Ils seront copiés dans /root.

Ceci étant dit, voici le script le plus complet que j'ai écrit pour construire une maquette avec LXC :

#!/bin/bash
 
source commun
 
HERE=`pwd`
PARENT=$HERE/..
 
for i in $MACHINES
do
	# Création du conteneur
	lxc-create -n $i -t debian -- --preseed-file=$HERE/preseed-file
 
 
	# Proc doit être en RW pour permettre l'activation de l'ip_forward
	sed -i 's/proc proc proc ro/proc proc proc rw/' /var/lib/lxc/$i/config
 
 
	# Pour que SSH accepte les connexions
	sed -i 's/UsePAM yes/UsePAM no/' /var/lib/lxc/$i/rootfs/etc/ssh/sshd_config
 
 
	# Mise en place du réseau
	head -n-6 /var/lib/lxc/$i/config > /var/lib/lxc/$i/config.tmp
	mv /var/lib/lxc/$i/config.tmp /var/lib/lxc/$i/config
	cat $PARENT/network/config.$i >> /var/lib/lxc/$i/config
 
	# Toutes les interfaces sont sur le même bridge donc les réponses ARP ne venant 
	# pas de la bonne interface peuvent être gênantes. Pour eviter ça, on active arp_filter
	echo "net.ipv4.conf.all.arp_filter = 1" >> /var/lib/lxc/$i/rootfs/etc/sysctl.conf
	echo "net.ipv4.conf.default.arp_filter = 1" >> /var/lib/lxc/$i/rootfs/etc/sysctl.conf
 
	intSurCeRouteur=`grep -Eo "eth[0-9]" /var/lib/lxc/$i/config`
 
	for j in $intSurCeRouteur
	do
			echo "net.ipv4.conf.$j.arp_filter = 1" >> /var/lib/lxc/$i/rootfs/etc/sysctl.conf
	done
 
 
	# Associations IP<->nom
	cat $PARENT/network/hosts >> /var/lib/lxc/$i/rootfs/etc/hosts
 
 
	# Routing (on veut zebra + ospf + bgp)
	cp $PARENT/routing/zebra.conf.$i /var/lib/lxc/$i/rootfs/etc/quagga/zebra.conf
	cp $PARENT/routing/ospfd.conf.$i /var/lib/lxc/$i/rootfs/etc/quagga/ospfd.conf
	cp $PARENT/routing/bgpd.conf.$i /var/lib/lxc/$i/rootfs/etc/quagga/bgpd.conf
	sed -i 's/^zebra=no/zebra=yes/' /var/lib/lxc/$i/rootfs/etc/quagga/daemons
	sed -i 's/^ospfd=no/ospfd=yes/' /var/lib/lxc/$i/rootfs/etc/quagga/daemons
	sed -i 's/^bgpd=no/bgpd=yes/' /var/lib/lxc/$i/rootfs/etc/quagga/daemons
 
 
	# Forward
	sed -i 's/#net.ipv4.ip_forward=1/net.ipv4.ip_forward=1/' /var/lib/lxc/$i/rootfs/etc/sysctl.conf
 
 
	# Tests
	cp $PARENT/tests/pingall.sh /var/lib/lxc/$i/rootfs/root/
	chmod u+x /var/lib/lxc/$i/rootfs/root/pingall.sh
done
Lancer

On met en place ce qu'il faut (cgroups, création du bridge, on ne drop pas les paquets qui passent d'un conteneur à l'autre, ..) puis on lance les conteneurs et on vérifie qu'ils sont bien lancés.

#!/bin/bash
 
source commun
 
mount -t cgroup none /sys/fs/cgroup
 
brctl addbr br0 
ip link set up dev br0
 
iptables -P FORWARD ACCEPT
ip6tables -P FORWARD ACCEPT
 
for i in $MACHINES
do
	lxc-start -d -n $i
done
 
sleep 10
 
for i in $MACHINES
do
	echo "$i :"	
	lxc-info -n $i
	echo -e "\n"
done

Alors oui, ce script causera l'affichage d'erreurs lors d'utilisations successives car il n'y a pas de contrôles et que le bridge existe déjà et que les cgroups sont déjà montés. Rien de grave donc, juste trois lignes de textes sur la console. 😛

Stopper

On arrête les conteneurs et on vérifie qu'ils ont bien été arrêtés.

#!/bin/bash
 
source commun
 
for i in $MACHINES
do
	lxc-stop -n $i
done
 
sleep 10
 
for i in $MACHINES
do
	echo "$i :"	
	lxc-info -n $i
	echo -e "\n"
done

Je sens que je vais me faire troller sur l'utilisation de « lxc-stop » qui fait un arrêt violent des conteneurs en lieu et place de « lxc-halt » qui laisse les conteneurs s'éteindre par eux-mêmes. L'explication est simple : sur chacune de mes maquettes, lxc-halt fonctionne pour quelques conteneurs très minoritaires même en attendant et je dois lancer lxc-stop ensuite ... Et comme je n'ai remarqué aucun dégât en utilisant uniquement lxc-stop ... bah j'utilise uniquement lxc-stop.

Détruire

Permet de détruire tous les conteneurs LXC de la maquette.

#!/bin/bash
 
source commun
 
for i in $MACHINES
do
	lxc-destroy -n $i
done
Netem

Pour ajouter une latence calculée et différente entre chaque lien sans utiliser de distribution à la normale :

#!/bin/bash
 
# À lancer sur l'hôte, après que toutes les interfaces du lab 
# aient été créées ... soit environ start.sh + 10 secondes
 
modprobe sch_netem
 
# Un groupe de lignes = un routeur. Ici R1
tc qdisc add dev lxc_R1_R2 root netem delay 1.180890283ms
tc qdisc add dev lxc_R1_R3 root netem delay 2.3495148631ms
 
# R2
tc qdisc add dev lxc_R2_R1 root netem delay 1.180890283ms
 
# R3
tc qdisc add dev lxc_R3_R1 root netem delay 2.3495148631ms
tc qdisc add dev lxc_R3_R4 root netem delay 0.8994545122ms
 
# R4
tc qdisc add dev lxc_R4_R3 root netem delay 0.8994545122ms

Pour appliquer d'autres caractéristiques (perte, corruption) sur un ou plusieurs liens, il suffit d'ajouter des lignes à ce script.

Pingall

Pour vérifier que le réseau de mes maquettes est opérationnel, j'utilise, en premier lieu, un bête script qui ping toutes les adresses IPs allouées (en utilisant les noms, comme ça, on teste aussi la validé du fichier /etc/hosts 😉 ) et qui s'arrête à la première erreur rencontrée.

J'utilise souvent une loopback adressée sur chaque routeur. Cela permet de considérer les routeurs comme des destinations, ce qui est toujours utile (qui à dit MPLS ? 🙂 ). Cela permet aussi "d'accrocher" les protocoles de routage dynamiques (exemple : BGP et « update-source ») dessus.

#!/bin/bash
 
INTERFACES_PHY="eth0.r1.local eth1.r1.local eth0.r2.local eth0.r3.local eth1.r3.local eth0.r4.local "
 
INTERFACES_LO="lo.r1.local lo.r2.local lo.r3.local lo.r4.local"
 
 
echo -e "\033[0;32m\n\n---------- Testons d'abord chaque lien ----------\n\033[0;39;49m"
j=0
for i in $INTERFACES_PHY
do
	ping -c 2 -w 2 $i
 
	if [ $? -ne 0 ]
	then
		echo -e "\033[0;31m\n\n---------- ÉCHEC ----------\n\033[0;39;49m"
		exit 5
	fi
 
	echo -e "\n"
done
 
 
echo -e "\033[0;32m\n\n---------- Testons ensuite chaque loopback ----------\n\033[0;39;49m"
j=0
for i in $INTERFACES_LO
do
	ping -c 2 -w 2 $i
 
	if [ $? -ne 0 ]
	then 
		echo -e "\033[0;31m\n\n---------- ÉCHEC ----------\n\033[0;39;49m"
		exit 5
	fi
 
	echo -e "\n"
done
 
 
echo -e "\033[0;32m\n\n---------- SUCCÈS ----------\n\033[0;39;49m"
exit 0

À la recherche d’un MUA

Il y a 2 mois, je décidais d'utiliser exclusivement mes serveurs de mails personnels ou ceux d'entités de confiance. Adieu donc les Hotmail, Gmail, FAI, ... Et vous verrez plus loin que mon choix est antérieur au NSA-gate. 😉 Histoire de tout faire en une seule fois, j'ai harmonisé les boîtes mail restantes et notamment le protocole de consultation (IMAP partout) et je me suis intéressé aux différentes manière de trier mes mails. Et, forcement, j'ai décidé de comparer les clients mail (MUA) existants pour voir si un autre MUA conviendrait mieux à mes besoins que Icedove (aka Thunderbird chez Debian). Je vais tenter de résumer tout ça dans ce billet bordelique.

Si vous êtes tombé sur ce billet alors que vous cherchez à mettre en place votre propre serveur mail, je vous redirige vers la partie « Courrier électronique » de wiki.auto-hebergement.fr et vers Postfix tranquille chez Karchnu pour l'installation basique et vers Sécuriser un serveur de mail chez Tetaneutral.net pour les techniques avancées.

Table des matières

FAQ

Avant d'entrer dans le vif du sujet, je vais répondre, de manière publique, aux deux questions que l'on m'a le plus souvent posées :

  • « Comment as-tu réussi la transition si vite et à faire en sorte que les gens ne t'écrivent plus que sur les nouvelles adresses ? ». Je n'ai pas fait la transition en seulement deux petits mois :
    • J'ai prévenu depuis janvier 2013 qu'à partir de juillet 2013, je ne recevrai plus les mails sur les anciennes adresses. Et j'ai été ferme sur le fait que je n'irai pas sur le webmail les lire. M'envoyer un mail aux anciennes adresses, c'est perdu ! Pour le reste, à savoir les mailing-list (liste de discussion) auxquelles je suis abonné et les entreprises/administrations/associations auxquelles j'ai donné mon adresse, j'ai effectué le changement d'adresse sur leur site web dès janvier et cela s'est très bien passé ... sauf pour 2 banques (une personnelle, l'autre pour une association) dans lesquelles il faut prendre un rendez-vous avec un conseiller pour changer une adresse mail ... Oui, en 2013, oui, oui, oui !
    • Entre janvier et juillet, à chaque fois que j'ai reçu un mail sur ce qui allait devenir une ancienne adresse, je répondais au mail, en indiquant, dès le début du mail, qu'il ne fallait plus utiliser cette adresse et en positionnant un en-tête « reply-to » (Réponse à) contenant la nouvelle adresse.

    Bilan : seulement 2 personnes n'ont pas compris et se sont plaintes récemment que je n'ai pas répondu à leurs mails ...

  • « Tu ne perds pas de mails ? ». Quasiment non. J'ai demandé à un maximum de personnes, qui utilisent des fournisseur d'adresses mail bien différents, de tester et il s'avère que le seul fournisseur chez qui mes mails tombent dans le dossier SPAM, c'est le casse-couille de la profession, à savoir, Hotmail ! Cela ne concerne que le premier mail, tant que la personne qui possède l'adresse Hotmail ne vous a jamais répondu ou écrit de sa propre initiative. Non, je ne suivrai pas leur procédure pour me faire autoriser : le mail est normalisé, je n'ai pas à suivre les instructions d'une entreprise particulière pour envoyer des mails ! Je pense avoir mis en place suffisamment de procédés normalisés (SPF, DKIM, reverse v4/v6 corrects, TLS, ...) pour que l'on se doive de me foutre la paix !

Choix d'un MUA

Je cherchais un MUA qui réunit ces quelques critères :

  • Logiciel libre.
  • Un client lourd, pas un webmail.
  • KISS. Je n'ai pas besoin d'avoir un agenda intégré, j'ai déjà un agenda. Je n'ai pas besoin d'avoir un gestionnaire de TODO intégré. Bref, je veux juste du mail.
  • Support de la fonctionnalité IDLE d'IMAP. Cela permet au client d'indiquer au serveur qu'il souhaite être notifié en temps-réel de l'arrivée de nouveaux mails.
  • Stockage des mails au format Maildir. Un mail par fichier par opposition à Mailbox avec lequel un fichier stocke toute une boîte. Maildir est réputé plus efficaces sur un volume moyen de mails. Mais surtout, un mail par fichier permet une sauvegarde impeccable et une restauration facile quand le MUA pète les plombs et dégage un mail ou mélange les en-têtes d'un mail avec le contenu d'un autre ... Si, si, si, ces deux cas me sont déjà arrivés avec Thunderbird. Heureusement, j'avais une sauvegarde mais du coup, les mails n'apparaissent plus dans le client. Pour les relire, il faut que j'ouvre la sauvegarde. Et c'est moyen-moyen.

L'ergonomie est un critère secondaire.

Si l'on exclut les clients mail dont l'implémentation de Maildir est un patch dont on ne sait pas si c'est stable ou non, il reste :

  • Mutt
  • KMail
  • Evolution
  • Icedove (aka Thunderbird)

Voici les avantages et les inconvénients que j'ai trouvé à chaque client.

Mutt :

  • + Je l'utilise déjà mais je souhaite quand même utiliser un autre client en parallèle le temps de finir d'apprendre les combinaisons de touches les plus utiles au quotidien. Histoire d'être efficace et surtout histoire de ne pas faire d'erreurs de manip' du genre « oooops, tiens, cette boite mail était vide avant ? ». 😛
  • + KISS.
  • + Contrairement à tous les autres MUA, l'affichage des nouveaux mails est efficace : ouvrir un dossier et pouf, la sidebar affiche tous les nouveaux messages dans tous les dossiers. Avec Icedove/Evolution, je suis obligé de survoler l'intégralité des dossiers pour voir les nouveautés dans les dossiers.
  • + Léger ... Il ne prend pas 95 % du CPU pendant plusieurs dizaines de secondes pour relever une BAL.
  • + Maildir par défaut (voir dans Mutt/cache/BAL/).
  • - Je suis le seul avec qui Mutt segfault parfois. 🙁

KMail :

  • - Bien que les devs et la doc indiquent que KMail supporte IMAP IDLE, je n'ai pas trouvé ça fonctionnel.
  • - L'ergonomie de l'interface est vraiment, vraiment mauvaise. Pareil pour la mise en place d'un compte ... L'utilisation au quotidien est juste affreuse.

Evolution :

  • - N'est pas KISS : il fait aussi TODO, agenda, ...
  • - Pour voir si j'ai de nouveaux mails dans mes dossiers, je suis obligé de survoler l'intégralité des dossiers pour voir les nouveautés dans les dossiers.
  • + Maildir.
  • - Niveau ergonomie, on n'est pas loin de KMail ... Notamment, quand le texte d'un mail dépasse la fenêtre, impossible de scroller, il faut forcement utiliser l'ascenseur ou les flèches du clavier ...
  • - Il reste quelques petits bugs, par-ci, par-là. Il y a des paramètres (mapping/port d'un serveur par exemple) qui sautent sans raison lors d'un re-démarrage du logiciel donc il faut insister plusieurs fois pour que ça soit bien pris en compte.
  • - Evolution range les mails/paramètres/autre dans pas moins de 4 dossiers dans le home directory. Bon courage pour la sauvegarde ! Au moins Thunderbird et Mutt mettent tout dans un même dossier.

Icedove/Thunderbird :

  • + Le poids des habitudes : je n'ai connu que Thunderbird en client mail graphique donc y renoncer maintenant s'avère difficile.
  • + Quasiment KISS (mail + newsgroups sauf si des extensions sont installées (iceowl pour faire agenda, par exemple).
  • - Pour voir si j'ai de nouveaux mails dans mes dossiers, je suis obligé de survoler l'intégralité des dossiers pour voir les nouveautés dans les dossiers. ÉDIT du 19/09/2013 à 20h05 : Lire les commentaires de JB, le pourquoi du comment y est tout bien expliqué. Solution provisoire : mettre « mail.server.default.check_all_folders_for_new » à « true », solution définitive à long terme : IMAP NOTIFY (RFC 5465). Fin de l'édit
  • - L'implémentation de Maildir est récente, activable via de la bidouille dans les fichiers de configuration. Il y a eu des bugs importants ces derniers temps (déplacement foireux (l'original n'est pas effacé), une mise à la corbeille foireuse) et il en reste encore d'après le bugtracker (même si certains sont plus des PEBKAC que des bugs). Vu qu'elle est expérimentale, cette implémentation peut subire des changements radicaux (ie : les devs peuvent penser « ceux qui l'activent le font en connaissance de cause donc on peut se permettent de casser la compatibilité par la suite, les utilisateurs sont des beta-testeurs, ils s'attendent à perdre éventuellement des mails »).
  • - Lourdeur : 95 % du CPU pendant plusieurs dizaines de secondes pour juste parler IMAP ?! O_O

En fait, je me suis rendu compte que la première partie de la devise de Mutt, « All mail clients suck. », est vraie.

En conséquence, en attendant de savoir manier totalement Mutt pour mes usages quotidiens, j'ai choisi de continuer à utiliser Icedove/Thunderbird sans Maildir. En ce qui concernant les boîtes mail que j'auto-héberge (la majorité), j'ai une sauvegarde issue du serveur donc elle est au format Maildir. Pour les autres, j'ai la sauvegarde du dossier Icedove donc Mailbox mais sauvegarde quand même.

Tri du courrier

Il existe plein de mécanismes différents pour trier et filtrer ses mails.

Chaque MUA permet de le faire avec sa syntaxe précise.

Il est aussi possible d'utiliser des langages côté serveur. Cela permet d'avoir les mêmes règles de tri/filtrage quel que soit le client utilisé (client lourd, webmail, ...) puisque les mails sont triés sur le serveur et non plus par le client. Et c'est portable (si l'on change de MUA, que l'on oublie de sauvegarder sa config, ...). Il existe plein de mécanisme côté serveur : procmail, maildrop, Sieve, ...

Je me sers de Sieve, via Dovecot LDA, sur un de mes serveurs de mail et de procmail sur les 2 autres. Je m'en sers exclusivement pour déplacer un mail dans un dossier en fonction d'un critère : comparaison de l'en-tête « List-Id » pour identifier un mail d'une liste de discussion, comparaison du delimiteur dans l'adresse mail du destinataire pour identifier l'origine, une communauté, un service, ... ou pour supprimer les mails envoyés par des réseaux asociaux.

Pour les avantages et les inconvénients de procmail :

  • + Offre de grandes possibilités ;
  • - La courbe d'apprentissage est raide ;
  • - N'est pas normalisé.
  • - Pour modifier les règles, il faut avoir accès au serveur.

Pour les avantages et les inconvénients de Sieve :

  • + Normalisé. Plusieurs implémentations sont disponibles (Dovecot, Cyrius, ...) ;
  • + Facilité de prise en main / human-readable ;
  • - Moins de possibilités pour les utilisateurs expérimentés et exigeants.
  • + Pour modifier les règles, on peut utiliser Manage Sieve, un protocole dédié. Une extension Thunderbird existe pour cela mais je ne sais pas ce qu'elle vaut : j'ai un shell sur mes serveurs persos, quand même :P.

Utiliser procmail et/ou Sieve

procmail

Pour utiliser procmail avec Postfix, il suffit de rajouter ce qui suit au main.cf :

mailbox_command = /usr/bin/procmail -f- -a $USER -a $EXTENSION

« $EXTENSION » permet de fournir le texte après le délimiteur (exemple : toto dans guigui+toto@) à procmail. Cela permet d'écrire des règles qui matcheront cet élément. Source : Postfix Configuration Parameters - Mailbox command. ÉDIT du 19/09/2013 à 19h35 : Avant de me faire troller, je précise que le délimiteur n'est pas forcement le caractère « + » et qu'il peut être changé. Avec Postfix, il faut voir ça avec la directive de configuration « recipient_delimiter ». Fin de l'édit

Ensuite, il faut rajouter les instructions générales et les recipes (les règles) dans un fichier (.)procmailrc. Il peut se trouver dans /etc/ et il s'appliquera en conséquence à toutes les boîtes mail hébergées sur le système. Il peut se trouver dans le home directory (.procmailrc) d'un utilisateur auquel cas il s'appliquera uniquement à la boîte aux lettres de cet utilisateur. Si les deux existent, procmail exécutera d'abord celui contenu dans /etc/ puis celui contenu dans le home directory. Source : man procmail (« If no rcfiles and no -p have been specified on the command line, procmail will, prior to reading $HOME/.procmailrc, interpret commands from /etc/procmailrc (if present). »).

Du coup, je me sers de /etc/procmail pour indiquer des instructions générales (log, dossier par défaut si le dossier précisé dans une règle n'existe pas, ...) dans /etc/procmailrc. Les règles se trouvent dans mon home directory. Voici, par exemple, le contenu de mon fichier /etc/procmailrc :

SHELL=/bin/false
PATH=/bin:/usr/bin:/usr/local/bin
 
LOGFILE=/var/log/mail/procmail.log
VERBOSE=no
 
DROPPRIVS=yes
 
LOGNAME=$USER
MAILDIR=$HOME/Maildir
DEFAULT=$HOME/Maildir/new
ORGMAIL=$MAILDIR/new

Attention :

  • Sur le web, j'ai déjà vu des procmailrc contenant « DEFAULT=$HOME/Maildir/cur ». Cela me semble être incorrect. Le format Maildir indique que le MTA/MDA place le mail dans tmp durant sa réception puis le déplace dans new dès la réception complète. Seul le MUA déplace le mail dans cur. Or, procmail n'est pas un MUA. Source : Maildir sur Wikipedia.
  • Procmail s'enlève les droits dès qu'il parse l'instruction « DROPPRIVS ». Donc la mettre avant « LOGFILE » empêche procmail de logger (dans /var/log/* j'entends).

Quelques exemples de règles :

DELIM = $2
 
# Les listes de discussion de la FFDN seront rangées dans le dossier FFDN 
:0:
* ^List-Id:.*lists.ffdn.org
$HOME/Maildir/.FFDN/
 
# Tout ce qui arrive sur l'adresse guigui+toto@ va dans le dossier toto
:0:
* DELIM ?? ^^toto^^
$HOME/Maildir/.toto/

## Pour dégager les réseaux asociaux
# LinkedIn - premier mail
:0H:
* ^Subject:.*Check out my profile on LinkedIn.*
/dev/null

# LinkedIn - relances
:OH:
* ^From: .*invitations@linkedin.com
/dev/null

## Fin dégager les réseaux asociaux

Pour apprendre à écrire vos règles procmail, je vous recommande les ressources suivantes :

Sieve avec Dovecot LDA

Pour utiliser Dovecot LDA avec Postfix, il suffit de rajouter ce qui suit au main.cf :

mailbox_command = /usr/lib/dovecot/dovecot-lda -f "$SENDER" -a "$RECIPIENT" -d "$USER"

Il faut également ajouter ce qui suit dans /etc/dovecot/dovecot.conf (ou dans les bons fichiers dans conf.d pour ceux qui veulent faire propre et version 2 compliant) :

protocol lda {
        mail_plugins = sieve
        postmaster_address = postmaster@votredomaine.example
}
 
plugin {
         sieve = ~/.dovecot.sieve
}

Source : The Perfect Server - OpenSUSE 12.2 x86_64 (Apache2, Dovecot, ISPConfig 3 - Page 4.

Ensuite, il ne reste plus qu'à placer les règles dans ~/.dovecot.sieve (qui est le fichier que nous avons indiqué dans la directive « sieve » dans dovecot.conf). Le log s'ajoute directement dans le log général, avec les tentatives de connexions IMAP/POP.

Quelques exemples de règles :

require ["fileinto", "envelope", "subaddress"];
 
# Les listes de discussion de la FFDN seront rangées dans le dossier FFDN 
if anyof (
	header :contains "List-Id" "lists.ffdn.org",   # Si le mail vient de la ML 
	header :contains "Subject" "[FFDN]"            # ou réponse hors-liste (fictif)
) {     
	fileinto "FFDN";
	stop; # Pas la peine de parcourir le reste des règles
}
 
# Tout ce qui arrive sur l'adresse guigui+toto@ va dans le dossier toto
if envelope :detail "to" "toto" {
	fileinto "toto";
	stop;
}

# Pour dégager les réseaux asociaux
if anyof (
       # LinkedIn (premier mail + relances)
       header :is ["Subject"] "Check out my profile on LinkedIn",
       address :is ["From"] "invitations@linkedin.com"
)
{
       discard;
       stop;
}

Pour apprendre à écrire vos règles Sieve, je vous recommande les ressources suivantes :

Trucs & astuces

Icedove/Thunderbird

Si vous utilisez les délimiteurs dans votre adresse mail (exemple : toto+commerçantA@votredomaine.example ou toto+listeDeDiscussionA@votredomaine.example) pour trier votre courrier plus facilement et savoir qui a revendu votre adresse mail, vous pouvez avoir besoin d'envoyer des mails avec comme adresse d'expéditeur, l'adresse complète soit toto+listeDeDiscussionA@votredomaine.example et non pas uniquement toto@votredomaine.example. C'est typiquement le cas pour les listes de dicussions : le gestionnaire de la liste (sympa, mailman, ...) n'acceptera vos mails que s'ils contiennent l'adresse d'expéditeur indiquée lors de votre inscription à la liste.

Evidemment, vous n'allez pas créer autant de compte dans votre MUA que d'adresse mail différente : Thunderbird (comme les autres MUA) permet de lier plusieurs identités à un compte mail. Voir : Multiple identities per e-mail account.

Paramètres des comptes -> Sélectionner le compte concerné -> Gérer les identités -> Ajouter -> saisir juste le nom et l'adresse mail avec le délimiteur -> Ok *3.

Créer des adresses mail temporaires auto-hebergées

Voir : Service d'adresse de redirection temporaire. Je trouve ça excellent !

Le mécanisme d'alias vous permet de créer des adresses temporaires pour votre domaine. Les alias virtuels permettent de créer des alias qui sortent de votre domaine, pour des amis, une petite communauté, ... Il n'est pas nécessaire d'utiliser le script PHP (sauf si vous ouvrez votre service à tout le monde, bien sûr) : il suffit d'ajouter/supprimer des alias.

Mutt

Sous Mutt, impossible de se passer de mutt-sidebar. Sous Debian, c'est le package mutt-patched qu'il faut installer.

Pour vous faire une config Mutt qui ne craint pas trop, je vous recommande ces deux ressources : Desktop in a shell: mutt et Mutt sur le wiki Archlinux.

Pour utiliser plusieurs adresses mail sans les rediriger sur une seule, il suffit d'utiliser les profiles. Je ne sais pas pourquoi je lis à droite et à gauche « hola, c'est compliqué, utilises des alias plutôt » ... Le commutateur « -F » permet de préciser un muttrc différent de ~/.muttrc. Il suffit donc de créer autant de profiles (et donc de fichiers) que de boîtes aux lettres différentes, contenant chacun les informations nécessaires pour utiliser une BAL (paramètres généraux, IMAP, SMTP, ...). Tout en utilisant la directive « source » pour inclure un fichier contenant les directives communes à tous les comptes mail. Il suffit ensuite d'utiliser screen et un alias. Exemple : l'alias « screen-mail » ouvre X onglets et lance un « mutt -F profile-X » dans chaque. On peut aussi utiliser uniquement des alias : Kevin's Mutt Tips and Tricks - Mutt

DNS : glue records, net/com/org et error 2003

Aujourd'hui, je vais vous parler des glue records et notamment des cas où il faut les utiliser alors que ça ne correspond pas à la définition première que l'on se fait d'un glue record.

Je trouve que c'est assez peu documenté et très peu connu. J'ai découvert ça très récemment, alors que je configurais les serveurs de noms qui font autorité sur arn-fai.net (appartenant à ARN, FAI associatif alsacien). Je n'avais jamais eu un nom de domaine sous un TLD concerné par cette exception ni utilisé un autre secondaire pour faire autorité sur mes zones que celui proposé par mon bureau d'enregistrement, ceci explique peut-être cela.

Pour aborder sereinement ce billet, il faut avoir une petite idée du processus de résolution d'un nom par le DNS ainsi de ce qu'est un glue record (en fin de section) quand on cause de noms de domaine et de comment ça se mange.

Vous avez un nom de domaine sous les TLD net, com ou org. Vous voulez qu'un deuxième serveur fasse autorité sur votre zone. Le nom de ce serveur est aussi sous com, net ou org. Alors, vous devez déclarer un (ou plusieurs) glue record pour ce deuxième serveur via le bureau d'enregistrement via lequel le deuxième nom de domaine a été obtenu.

Si vous ne le faites pas, le registre (Verisign pour com/net, Afilias pour la gestion technique de org) vous retournera l'erreur « error : 2003 required parameter missing » lors de la déclaration des nouveaux serveurs faisant autorité sur l'interface web de votre bureau d'enregistrement.

Quelques exemples concrets :

  • On veut que la machine désignée par le nom alsace.tetaneutral.net. soit le deuxième serveur qui fait autorité sur arn-fai.net. Il faut donc que Tetaneutral.net ajoute des glue records (A/AAAA) pour alsace.tetaneutral.net. via son bureau d'enregistrement (Gandi).
  • On veut que les machines désignées par les noms (ns0|ns1).fdn.org soient les serveurs qui font autorité sur ffdn.org. Il faudra donc que FDN ajoute des glue records pour les noms (ns0|ns1).fdn.org.
  • Un enregistrement associant une IPv4 au nom ns6.gandi.net. (type A) est déclaré dans la zone net. C'est un glue record et il permet aux clients de Gandi qui achètent un nom de domaine dans net/com/org de déclarer la machine pointée comme étant un serveur faisant autorité sur leur domaine.

On peut trouver une autre illustration concrète ici : Soit disant glue records - Gandi.net Groups.

Vous allez me dire : « cet usage des glue records est un usage dérivé de la définition puisqu'un glue record sert normalement à casser une référence circulaire comme « A ns0.arn-fai.net ? » -> « je sais pas, demande à ns0.arn-fai.net qui fait autorité sur arn-fai.net ». Oui, on peut voir ça comme un usage dérivé dans le sens où on ne s'en sert pas pour casser une référence circulaire mais ça reste le même principe de fonctionnement fondamental : faire remonter une information dans la zone parente. Une information qui sera, de ce fait, hors zone.

Le seul intérêt que je vois à cette manipulation, c'est que cela permet de réduire la charge sur les serveurs qui font autorité sur net/com/org. Cela évite un échange supplémentaire. J'imagine que cela procurait un bénéfice vu les caractéristiques (latence surtout) des réseaux de l'époque bien que je ne comprends pas pourquoi certains TLD créés à l'époque (exemple : fr) ont fait un choix technique différent ...

Pour illustrer le gain d'un glue record dans le cas qui nous intéresse, imaginons un dialogue approximatif entre un récursif-cache et les serveurs qui font autorité sur net/com (ça serait pareil pour org).

D'abord, sans glue record (évidemment, on suppose qu'on a vidé le cache du récursif-cache pour les noms concernés ...) :

  • A xxx.arn-fai.net. ?
  • je ne sais pas, va voir ns0.arn-fai.net. qui a telle IP et alsace.tetaneutral.net.. Ils font autorité sur arn-fai.net.
  • ...
  • (ici, ns0.arn-fai.net ne répond pas/pas assez vite ou le récursif-cache veut mettre en cache alsace.tetaneutral.net pour plus tard au cas où, donc le récursif-cache veut interroger alsace.tetaneutral.net) : « A alsace.tetaneutral.net. ? »
  • « je ne sais pas, va voir ns0.tetaneutral.net. qui a telle IP et qui aura la réponse car il fait autorité sur tetaneutral.net. »
  • ...

Maintenant, avec un glue record (évidemment, on suppose qu'on a vidé le cache du récursif-cache pour les noms concernés ...) :

  • A xxx.arn-fai.net. ?
  • je ne sais pas, va voir ns0.arn-fai.net. qui a telle IP et alsace.tetaneutral.net. qui a telle autre IP. Ils auront la réponse car ils font autorité sur arn-fai.net.
  • ...

Notons que cela concerne uniquement les noms de domaine qui se trouvent sous un TLD dont le registre est (ou fut) Verisign. Donc net, com et org. Le registre de org est, aujourd'hui, Public Interest Registry (avec une sous-traitance à Afilias pour la partie technique) mais fut un temps, Verisign était bien le registre de org. Pour les autres TLD, il n'est pas nécessaire d'ajouter un glue record. Par exemple, je peux très bien dire :

  • un des serveurs qui fait autorité sur mazone.fr, c'est ns0.monautrezone.fr.
  • un des serveurs qui fait autorité sur mazone.info, c'est bidule.monautrezone.info.
  • ...

De quand date ce principe de fonctionnement ? De l'époque (année 2000) où Verisign a acheté Network Solutions ? De l'époque "purement" Network Solutions (1991-2000) ? De quelques années auparavant ? Je n'en ai aucune idée mais ça m'intéresse. 😉

Vous allez me dire « non mais pourquoi s'embêter avec ton histoire de glue records ... regardes, pour alsace.tetaneutral.net par exemple, il suffit de créer un enregistrement « arn-fai.net. NS vmttnn.arn-fai.net. », d'ajouter les bons enregistrements de types A/AAAA pour le nom vmttnn.arn-fai.net ainsi que d'ajouter les glue records pour ce nom et on peut très bien déclarer vmttn.arn-fai.net comme étant un serveur qui fait autorité sur arn-fai.net. ». Oui, ça marche aussi et c'est parfaitement valide.

Mais si Tetaneutral.net décide de renuméroter tout ou partie de son réseau, ARN doit être informé et modifier les valeurs des enregistrements vmttnn.arn-fai.net de types A/AAAA ainsi que les valeurs des glue records. Avec les glue records du côté de Tetaneutral.net (alsace.tetaneutral.net.), ARN n'a rien à faire. Si, à cet instant, vous avez pensé à déclarer vmttnn.arn-fai.net. comme un alias (CNAME) vers alsace.tetaneutral.net., vous avez perdu : on ne doit pas mettre un alias en valeur d'un enregistrement de type MX ou NS. C'est indiqué dans la section 10.3 du RFC 2181.

Comment voir un glue record ? C'est une information additionnelle, qui sera envoyée, par un serveur qui fait autorité, uniquement en complément d'une réponse contenant une délégation. Dans ce cas, le serveur qui fait autorité ajoutera le ou les enregistrements "glue" dans la section « additional » de sa réponse.

Exemple : l'enregistrement alsace.tetaneutral.net. de type A sera envoyé, par les serveurs qui font autorité sur net, uniquement en complément d'une réponse contenant un enregistrement NS avec la valeur alsace.tetaneutral.net. Dans notre cas, la seule question susceptible de générer cette réponse est « NS arn-fai.net. ? ». Donc la commande suivante permet de voir les glue records dans la section additionnelle : « dig @a.gtld-servers.net. NS arn-fai.net. ».

Évidemment, si alsace.tetaneutral.net est aussi déclaré comme serveur public[1] faisant autorité sur d'autres domaines, une requête « dig @a.gtld-servers.net. NS domaine.exemple. » affichera tout aussi bien les enregistrements dits "glue".

J'espère avoir réussi à documenter quelques points obscurs en étant clair et accessible.

[1] Oui, on n'est pas obligé de déclarer tous les serveurs faisant autorité sur un domaine dans des enregistrements de type NS. Cela sert notamment pour mettre en place un master "caché" (fin de section) pour, par exemple, signer hors-ligne une zone (DNSSEC) ou pour réserver des slaves qui seront seulement interrogés par les machines internes à l'organisation (association, entreprise, ...) qui possède le nom de domaine (voir : Conférence Mail/DNS à partir de 1h25m50).