Vidéosurveillance intelligente : l'ère des algorithmes a démarré

Bien sûr les logiciels ne peuvent pas tout faire. En revanche, des solutions industrialisées se développent sur des fonctions assez simples. En parallèle de véritables algorithmes d'intelligence artificielle s'annoncent prometteurs.

Immédiatement après les réactions de stupeur dues à l’attentat terroriste de Nice cet été, la vidéosurveillance a été montrée du doigt. Dans une des villes les plus équipées en caméras, pourquoi n’a-t-on arrêté le meurtrier avant qu’il ne commette son massacre ? Lecture des plaques d’immatriculation, tracking de personnes d’une caméra à l’autre, reconstitution d’une vue panoramique, reconnaissance faciale, détection de franchissement non autorisés de lignes ou de murs virtuels… le monde de la vidéosurveillance mise pourtant de plus en plus sur des algorithmes d’analyse vidéo qui s’approchent de l’intelligence artificielle. Mais peut-être en demande-t-on trop à la technologie ? Quelles sont les forces et faiblesses des algorithmes ?

Identifier des situations considérées a priori comme anormales
« Tout d’abord, les algorithmes en vidéosurveillance et en vidéoprotection ne s’apparentent pas à un simple effet marketing de la part des vendeurs de solutions. Ils représentent une cible majeure vers laquelle tend tout le secteur », estime Dominique Legrand, président de l’Association nationale de la vidéoprotection (AN2V). De fait, la vidéosurveillance intelligente (VSI), encore appelée Video Analytics ou Détection automatique d’anormalités (DAA) mise sur des logiciels qui exploitent les capacités de calcul embarquées dans les caméras ou dans les serveurs pour analyser si possible en temps réel les images qu’elles enregistrent. Objectif : identifier des situations, prévues à l’avance, considérées a priori comme anormales. Ensuite, des algorithmes complexes vont aider les opérateurs de sécurité, soit en temps réel soit (mais surtout) en temps différé (élucidation) en lui envoyant automatiquement les alertes les plus pertinentes possibles lorsque la VSI a détecté un événement anormal : intrusion, dépassement d’une ligne ou d’un mur virtuels, objet abandonné, personnes en situation horizontale… L’analyse VSI va alors s’atteler à des tâches de reconnaissance automatique de critères spécifiques de couleurs, de formes, de direction… En effet, les constructeurs comme Abus, Axis Communications, Canon, Hikvision, Honeywell Fire & Security ou Mobotix… multiplient les fonctionnalités à relativement faible taux d’erreur et donc de fausses alarmes. Au menu : lecture automatique de plaques d’immatriculation (Lapi), détection d’intrusion (franchissement de lignes, de clôture, de zone)…

Une offre très fragmentée

En matière de reconnaissance automatique, les fournisseurs les plus évolués proposent, pour l’heure, des fonctionnalités extrêmement ciblées. Citons la Lapi allant jusqu’à une distance de 80 m chez Komanche, par exemple. Bien sûr, cette fonctionnalité est assortie d’un système complet d’identification des véhicules et de remontées d’alertes par email. « Seules la police et la gendarmerie sont habilitées à mettre en place un dispositif de lectures de plaques d’immatriculation sur [l’espace public]. Pour leur part, les collectivités territoriales doivent demander une autorisation préalable à la Commission nationale Informatique et Libertés (Cnil) qui est assez difficile à obtenir car elle revient à créer un fichier local de plaques d’immatriculation. Toutefois, si la commune confie à la police ou à la gendarmerie l’exploitation des images, elle peut installer un système Lapi, comme c’est le cas aux Mureaux (Yvelines), un commune de 31.000 habitants », soulève Dominique Legrand.
Du coup, les éditeurs de Lapi ciblent davantage le marché de la protection des sites industriels, logistiques, tertiaires, les parkings où la plaque lue sera comparée à celles qui figurent dans une base de données interne à des fins de contrôle d’accès automatisé. Ou à une base de véhicules recherchés pour des opérations de police. Pour sa part, le français Evitech met en avant la recherche de fiabilité de la DAA, notamment pour réduire au maximum le taux de fausses alarmes. Animaux errants entrant sur le site, rondes de gardiens et de chiens, présence de grilles susceptibles de laisser passer des phares ou de l’éclairage variable dans le site… autant de scénarios qui se retrouvent dans ses algorithmes Eagle et Jaguar. Des solutions qui savent aussi distinguer entre un individu qui s’arrête près de la clôture ou s’il passe sans s’arrêter. Il sait même reconnaître un intrus rampant ou caché sous une bâche, voire sous des cartons peints.

La fiabilité de la DAA est recherchée réduire au maximum l
le taux de fausses alarmes comme celle des animaux errants
entrant sur le site. © Evitech

De son côté FoxStream, qui édite des logiciels d’analyse vidéo depuis 12 ans, se spécialise dans le franchissement de lignes et de zones pour la détection périmétrique. « Nous associons nos algorithmes principalement à des caméras thermiques afin de sécuriser des sites. Nos solutions constituent des alternatives aux solutions conventionnelles de type barrières infrarouges ou câbles de clôture. Avec une seule caméra, notre détection atteint plusieurs centaines de mètres, soit la distance la plus longue, avance Matthieu Thaller, directeur commercial de Foxstream qui, depuis plusieurs années, commercialise la Foxbox, une offre intégrée allant jusqu’à 4 voies (caméras) qui facilite l’installation et le déploiement du système. Sur Expoprotection 2016, nous sortirons une nouvelle version allant jusqu’à 8 caméras. »
Les exemples de fonctionnalités sont nombreux. Ce qui pousse les éditeurs à s’allier à des constructeurs de plates-formes matérielles. A l’instar de Foxstream qui s’allie à Axis Communications, le spécialiste suédois des caméras de vidéosurveillance IP qui a su, très tôt, ouvrir sa plate-forme aux éditeurs tiers. « Nous nous embarquons dans les caméras plates-formes des constructeurs qui le veulent bien ! Dont celle d’Axis, qui se montre très sélectif, mais aussi celle de Samsung Techwin (rebaptisé récemment Hanwha), plus ouverte, confie Matthieu Thaller. Bien sûr, nous développons aussi des partenariats avec les éditeurs de Video Management Systems (VMS) comme Alcea, Arteco, CamTrace, Genetch, Gunebo, Indigo Vision, Jet1Oeil, Lenel, Milestone, Seetec… Cela permet aux intégrateurs de nous insérer dans leur offre sur mesure. »

Identifier une intrusion à plusieurs centaines de mètres
devient possible. © Foxstream

Pour sa part, Mobotix mise sur une gestion des événements et des alarmes embarquée dans la caméra afin de réduire le taux de fausses alarmes grâce à l’algorithme d’analyse intelligente des mouvements MxActivitySensor. Point fort, le constructeur allemand associé à cette détection une levée de doute audio bidirectionnelle avec haut-parleur et microphone intégrés à la caméra. « Les caméras de vidéosurveillance devraient être systématiquement couplées à un détecteur audio. Rappelez-vous, Charlie Hebdo était soi-disant protégé. En ayant détecté un son anormal dès le Hall d’entrée avec un système qui coûte 100 euros par caméra, la porte blindée du second étage aurait été fermée, vitupère Dominique Legrand qui évoque les solutions du français Sensivic. Si les 1.000 caméras de Paris avait pu détecter le son le 13 novembre 2015, les forces de l’ordre auraient pu bloquer les voitures de terroristes en quelques minutes et ainsi éviter la catastrophe du bataclan. »

Grandes manœuvres

Face à la segmentation des offres, les partenariats entre éditeurs d’algorithmes et constructeurs sonnent, avant les concentrations, l’heure des grandes manœuvres. En témoigne Hikvision, numéro 1 mondial des systèmes de vidéosurveillance et vidéoprotection, qui s’est allié en 2015 à l’israélien Agent Video Intelligence (Agent Vi), leader mondial en systèmes globaux d’analyse vidéo intelligente, selon un classement 2015 de IHS Technology. Basée à Tel Aviv et créée en 2003, la société embarque ses algorithmes à bord de plus de 200 modèles caméras Smart IP série 4 de Hikvision. Lesquels échangent avec sa plate-forme ouverte savVi. Résultat, un seul serveur est ainsi capable de gérer jusqu’à 200 caméras.
Objectif : automatiser la détection d’événements, extraire automatiquement les données utiles à partir des scènes tournées afin d’alerter, et analyser les images stockées. De fait, savVi propose une offre de fonctionnalité assez large en matière de DAA, de recherche d’images et d’applications de Business Intelligence : détection d’intrusion dans une zone, franchissement d’une ligne (personnes et véhicules), gestion de files d’attente, déambulation, attroupement, occupation, déplacement de véhicules dans une zone donnée, talonnage, véhicule arrêté, dépassement de vitesse autorisée… « Nous allons continuer de coopérer avec Agent Vi étendre davantage de fonctionnalités et les intégrer à davantage de nos caméras », précise Keen Yao, directeur marketing international de Hikvision dans un communiqué.
Autre stratégie, celle du suédois Axis Communications (racheté par le japonais Canon), qui a acquis en février dernier la start-up parisienne Citilog, fournisseur de solutions intelligentes de gestion de trafic en temps réel. Ses algorithmes sont capables d’identifier en temps réel, notamment, des incidents ou accidents de la route. Et ce, afin d’aider les centres de gestion de trafic urbain à fluidifier la circulation et réduire les temps de réponse des différents intervenants.

Hikvision s'est allié à l'israélien Agent Vi pour intégrer des algorithmes
tant au niveau de la caméra que des serveurs. © Agent Vi — Hikvision s’est allié à l’israélien Agent Vi pour intégrer des algorithmes
tant au niveau de la caméra que des serveurs. © Agent Vi

Les voies prometteuses de l’intelligence artificielle
A côté de ces solutions industrielles, d’autres domaines de la VSI s’annoncent très prometteuses en matière d’intelligence artificielle. Ici encore, on trouve des start-up françaises. A commencer par Smart Me Up, start-up créée en 2012 par Loïc Lecerf et basée à Meylan (38) près de Grenoble et à Paris. « Loïc Brevet, qui a un doctorat en intelligence artificielle, a développé une technologie temps réel d’analyse qui reconnaît les visages au sein des flux vidéos à 30 images par seconde sur du matériel Low Cost, par exemple avec les mêmes puces que celles des smartphones d’il y a 5 ans, indique Mathieux Marquenet, directeur de production de Smart Me Up qui a fourni à Photomaton un système pour refuser de prendre la photo d’identité si le sujet n’adopte pas un position conforme aux exigences de la Préfecture de Police (pas de sourire, ni de cheveux dans les yeux, visage de face…). Nos outils peuvent extraire le genre d’un individu, la position 3D de son visage, son âge, ses émotions, mais ils peuvent aussi l’identifier. » La jeune pousse, qui a levé 2 millions d’euros en mars dernier, expérimente dans deux gares franciliennes de la SNCF, Saint-Denis et Bibliothèque-François-Mitterrand, un système intelligent de vidéosurveillance qui serait ainsi capable de détecter instantanément des mouvements de foule anormaux ou des agressions. Le procédé est installé actuellement sur deux gares du RER. Toujours en cours, le test pourrait conduire à un déploiement plus large en cas de succès. Le système permet aussi de repérer automatiquement et d’alerter sur le champ en cas d’intrusion d’une personne dans une zone interdite, ou en cas de chute sur la voie. Point fort du logiciel, il vise à détecter des faits de violence. Là encore, l’expérimentation est en cours sur les deux gares franciliennes. Objectif : vérifier si le logiciel correspond la réalité.

Un des enjeux de l'intelligence artificielle consiste à vérifier
si le logiciel comprend la réalité. © Smart Me Up — Un des enjeux de l’intelligence artificielle consiste à vérifier
si le logiciel comprend la réalité. © Smart Me Up

En route vers les systèmes auto-apprenants
Parmi les pionniers français de l’intelligence artificielle, citons la société toulousaine Spikenet, créée il y a 20 ans, pour valoriser les connaissances scientifiques du Cerco (Cerveu et cognition), une unité mixte du CNRS et de l’Inserm. « En reconnaissance faciale, les acteurs extraient, en majorité, les points caractéristiques de la géométrie du visage : le centre de chaque œil, la distance entre les yeux, celle entre le nez et la bouche… afin de construire une sorte de signature. C’est de la bio-reconnaissance faciale collaborative car la personne qui veut être reconnue doit collaborer en se plaçant devant la caméra afin qu’on lui ouvre la porte, confie Hung Do-Duy, président de Spikenet. Pour notre part, nous faisons des réseaux de neurones et du Machine Learning en reconnaissance faciale depuis plus de 15 ans. Grâce à cela, nous sommes les premiers à proposer un système non collaboratif d’identification à la volée. »
Le système de Spikenet part d’une photo. « Au lieu de décrire des points caractéristiques du visage, notre système mémorise des formes comme le ferait notre cerveau. L’avantage de cette approche, c’est qu’on arrive à travailler avec des résolutions assez faibles, jusqu’à 50 pixels au lieu de 300, poursuit Hung Do-Duy. C’est d’autant plus intéressant que les images de vidéosurveillance sont souvent en basse résolution et avec du bruit. Or nous arrivons à reconnaître un visage même s’il n’est pas droit par rapport à la caméra. » Pour Dominique Legrand, cette technologie est promise à un avenir brillant : « Aujourd’hui, il est peut-être difficile de distinguer Pierre et Paul. En revanche, les réseaux de neurones ont la particularité d’être capables d’apprendre. Plus ils apprennent, plus ils sont efficaces ! »

Erick Haehnsen

Vidéosurveillance intelligente : l'ère des algorithmes a démarré

Commentez

Newsletter

Publicité

Suivez-nous