L’intelligence vidéo intégrée : le plus court chemin de l’œil au cerveau

A retenir

 

> La vidéosurveillance intelligente se développe davantage en faveur de l’opérateur qu’à son encontre.

> La vidéosurveillance obéit de manière croissante à des logiques informatiques.

> L’avènement des caméras IP fait bénéficier l’opérateur d’une technologie qui permet d’analyser de contenu de l’image.

> Une simple caméra IP sans système de gestion central ne sert pas à grand-chose.

> Une caméra intelligente doit être capable d’intégrer des algorithmes plus précis et plus puissants. 

> L’intelligence intégrée dans les caméras permet de ne fournir des images qu’en cas de réel besoin.

> Face aux capacités de plus en plus étendues des caméras, les serveurs sont de plus en plus sollicités. Une architecture décentralisée permet de les gérer au mieux.

> La décentralisation a un avantage en termes de coût : le prix d’un serveur est divisé par le nombre de caméras auxquelles il est relié.

> Au lieu d’imposer son infrastructure, un système de vidéosurveillance doit pouvoir s’adapter aux moyens existants.

Loin de susciter un déport massif vers des solutions sans intervention humaine, la vidéosurveillance intelligente (VSI) se développe davantage en faveur de l’opérateur qu’à son encontre. Les performances offertes en matière d’analyse vidéo sont en effet conçues pour assister l’opérateur dans son activité, un événement détecté étant laissé à son appréciation. Car un système de vidéosurveillance, aussi intelligent soit-il, est loin d’égaler le jugement et le pouvoir de décision d’un opérateur. Malgré cela, l’attention et la concentration humaines ont leurs limites, et l’utilisateur derrière sa console de supervision ne peut légitimement garder un œil sur chaque image. Les solutions apportées en matière de détection de mouvement et d’analyse de l’image jouent donc un rôle précieux dans l’exploitation de la vidéosurveillance. L’essor de l’IP et l’explosion des technologies numériques bouleversent cette exploitation en profondeur. À tel point que « la vidéosurveillance obéit de manière croissante à des logiques informatiques, souligne Patrice Ferrant (Mobotix). On peut développer des composants de caméras de plus en plus puissants, il reste que ce sont des fonctions logicielles qui vont fournir les capacités d’analyse de l’image. » Les caméras IP, équipées d’un processeur, sont le reflet manifeste de cette tendance qui, depuis déjà quelques années, s’attache à développer les capacités d’analyse de la caméra elle-même. L’objectif ? Développer les capacités de traitement logiciel afin de rapprocher « l’œil » de la caméra du « cerveau » chargé d’analyser les données fournies par l’image, en fonction d’une logique d’événement prédéfinie. Ainsi procèdent les caméras dites « intelligentes », permettant d’apporter une solution qualitative aux problématiques des installations centralisées. En générant un flux de métadonnées, parallèlement aux flux audio et vidéo, l’intelligence intégrée dans le processeur d’une caméra permet ainsi d’alléger les process d’analyse, libérant ainsi les capacités d’un serveur. Seulement, de la simple détection de mouvement à des analyses plus complexes, les capacités de ces caméras diffèrent.

 

« Une caméra capable de fournir un niveau satisfaisant de détection en extérieur peut être considérée comme intelligente »

 

Définir une caméra intelligente…

Une caméra dotée d’un processeur est potentiellement capable de prendre en charge des fonctionnalités d’analyse de l’image et d’en optimiser le traitement. Elle devient ainsi une source d’analyse autonome, à la différence d’une caméra analogique qui, sans serveur dédié, ne peut pas offrir de telles performances. « C’est la caméra IP qui pose les bases du principe d’intelligence à la source, explique Arnaud Lannes (Bosch Security Systems). L’avènement des caméras IP a permis de bénéficier d’une technologie permettant de faire de l’analyse de contenu de l’image. Il s’agit à la base d’utiliser les ressources processeur prévues pour les opérations d’encodage. »

 

« Les caméras intelligentes constituent les nouvelles générations de caméras IP, précise Stéphane Haber (Viseox). Une simple caméra IP est similaire à une caméra analogique, dans le sens où elle est valorisée par le logiciel qui l’exploite. S’il n’y a pas de système de gestion central, on n’en fait pas grand-chose. Une caméra intelligente permet quant à elle de faire une analyse d’image poussée, à savoir détecter des scénarios dans l’image, à l’aide d’un micro-processeur permettant d’effectuer des calculs à la source. Ce micro-processeur va permettre d’extraire des métadonnées, c’est à dire des données associées à une recherche dans l’image, comme la vitesse d’un objet, sa trajectoire, sa taille, etc.» Une caméra intelligente ne se contente donc pas de transmettre des images. Y sont associées des données concernant un événement détecté et évalué en fonction de critères nombreux, et variables suivant les besoins : taille de l’objet, modification proportionnelle au sein de l’image, rapidité et sens de déplacement, modification colorimétrique, mouvements dans et en dehors d’une zone de détection, franchissement de zones, discrimination des mouvements naturels, etc. Mais, au vu de tout ce qu’une caméra est capable de détecter, trier, discriminer, analyser, qu’est-ce qu’une caméra intelligente ? Si toute caméra IP, équipée d’un processeur, peut prétendre à certaines facultés d’analyse de l’image, existe-t-il une définition stricte ?

 

« La notion de caméra intelligente varie d’un constructeur à l’autre, confie Arnaud Lannes. Elle est donc assez difficile à établir. Mais selon nous, une caméra capable de fournir un niveau satisfaisant de détection en extérieur peut être considérée comme intelligente. Nous parlons là d’une caméra capable de prendre en compte les facteurs intempestifs de déclenchement d’alarme couramment rencontrés en extérieur. En définitive, il n’y a pas tant de caméras répondant à ce critère sur le marché… Il s’agit de savoir où situer l’intelligence, où placer la barre en d’autres termes. Car au-delà de l’algorithme traditionnel de détection de mouvement, il existe un grand nombre d’algorithmes qui vont s’additionner à cette fonction de base. Une caméra intelligente doit être capable, également, de monter en capacités, être capable d’intégrer des algorithmes plus précis, plus puissants. »

La VSI, un marché encore orienté « serveur »

 

Boosté par les bonds technologiques successifs, le domaine de l’analyse d’image est en essor. Pourtant, les possibilités de l’intelligence intégrée semblent encore sous-exploitées, le marché de la VSI tendant à se concentrer sur des solutions centralisées en matière d’analyse vidéo. « En effet, explique Thomas Herlin (Vice-Président de Keeneo), nous constatons que le marché actuel est encore largement orienté vers des solutions centralisées. Les cahiers des charges expriment pour la plupart des besoins de solutions d’analyse de l’image proches du serveur. En effet, une solution d’intelligence intégrée est souvent perçue comme un surcoût, étant donné qu’il est nécessaire d’augmenter les capacités de calcul des caméras pour pouvoir accueillir des fonctionnalités logicielles. Bien sûr, placer l’intelligence à la source présente un intérêt majeur, dans la mesure où il n’est plus nécessaire d’enregistrer 24h/24. Une solution décentralisée a des atouts indéniables, mais sur les infrastructures critiques comme les aéroports ou les prisons, il y a en général une exigence de remontée vidéo 24h/24 avec enregistrement intégral. Pour ce type d’architectures, il est préférable de traiter l’analyse vidéo à l’aide d’un serveur centralisé. »

« Certaines applications vont s’intégrer en totalité dans la caméra, d’autres vont demander plus de puissance »

Où placer l’intelligence ?

« Qu’une solution soit basée sur un serveur central ou sur des caméras intelligentes, les algorithmes sont identiques, avance Arnaud Lannes. Autrement dit, le résultat en termes d’analyse de l’image est le même. » Alors, où placer l’intelligence dans un système de vidéosurveillance ?

 

Comme le rappelle Philippe Bénard (Axis), « la VSI peut-être exploitée suivant différentes méthodes. Premièrement, en faisant appel à des éditeurs logiciels spécialisés, concepteurs d’algorithmes qui vont venir s’implémenter au niveau du dispositif d’enregistrement et de visualisation. Il existe cependant un frein à ce type d’exploitation : chaque éditeur de VSI doit pouvoir se connecter sur le système d’enregistrement pour sélectionner l’information, la traiter et la renvoyer. Les solutions logicielles doivent être conçues de façon ouverte et demandent donc à être fournies avec des SDK. En découle un gros travail d’intégration. Ensuite, l’infrastructure machine à mettre en œuvre est généralement assez lourde. Elle nécessite une certaine puissance et donc un investissement souvent conséquent. Il reste qu’avec ce type de solution logicielle, les fonctionnalités sont potentiellement illimitées. Dans ce domaine, les limites existantes sont imposées par les ressources machine, mais aussi les conditions d’exploitation propres à un environnement. La seconde solution se situe du côté des constructeurs de caméras. Dans ce cas, les fonctionnalités qui vont enrichir les capacités de détection et d’analyse d’une caméra sont développées par le fabricant lui-même et donc intégrées directement dans la caméra. À cette objection près que le développement logiciel n’étant pas, en général, le cœur de métier du fabricant, les fonctionnalités seront plus limitées. »

 

Si les besoins dictent les usages, il faut donc s’attendre à une certaine variété de solutions : « Les solutions développées par Keeneo, confie Thomas Herlin, peuvent être hébergées soit dans la caméra, soit au niveau d’un serveur central, soit entre les deux, dans des encodeurs. » Seulement, lorsqu’il s’agit d’analyser les événements d’un scénario complexe, une caméra intelligente est-elle seule capable d’assumer le traitement de l’image ? « En effet, confie Philippe Bénard, certaines applications vont pouvoir s’intégrer en totalité dans la caméra, d’autres vont demander plus de puissance. Si une application de VSI demande plus de ressources qu’une caméra ne peut lui offrir, on peut envisager un partage du travail où la caméra traite une partie des données et les transmet au serveur qui finalise le traitement. » Il existe donc des besoins complexes auxquels l’intelligence embarquée ne peut répondre seule (cf. encadré : L’intelligence embarquée ne peut pas tout).

L’intelligence embarquée ne peut pas tout

 

> Thomas Herlin : « Dans le cadre de la détection de certains types de comportements humains (maraudage, attroupement), un système d’analyse vidéo intelligente ne fournit pas un résultat à 100% dès le départ. Il n’atteint un niveau de performance global satisfaisant qu’au terme d’une série d’itérations. Au bout de cette période de rodage, les taux de détection et de réduction de fausses alarmes sont alors optimisés. Selon nous, ce processus d’amélioration reste plus simple à réaliser à partir d’un environnement centralisé. À l’heure actuelle, nous estimons qu’on obtient davantage de flexibilité avec ce type de solutions. Nous nous tenons prêt à intervenir sur le terrain de l’intelligence intégrée. Néanmoins, nous n’allons pas dépenser trop de ressources dans ce domaine tant que nous ne recevrons pas un signal fort du marché sur des besoins concrets, avérés et solvables en matière de caméras intelligentes. »

 

> Stéphane Haber, « un grand nombre de scénarios de détection ne deviennent intéressants et pertinents qu’à partir du moment où il est possible de combiner les filtres, c’est-à-dire des données aussi variées que la vitesse, la taille, la couleur, la forme, le volume, etc. pour arriver à un taux de détection satisfaisant et en temps réel. Le processeur d’une caméra peut difficilement traiter toutes ces conditions. Enfin, à l’heure actuelle, il reste difficile de faire à la fois de l’image HD et de l’analyse intelligente poussée. Bien sûr, il existe des caméras mégapixels intelligentes, mais la résolution d’analyse ne sera pas en HD. »

 

> Arnaud Lannes : « Il est vrai que jusqu’à maintenant, sans faire de compromis sur les ressources processeur, il était compliqué de réunir les conditions suivantes : un flux vidéo en 4CIF, à 25 ips, compressé en H.264, associé à un traitement de l’image. Cependant, avec notre nouvelle génération de caméras bi-processeur, la contrainte est levée, étant donné qu’un processeur est strictement dédié à l’IVA. Les ressources associées à ces caméras sont donc très développées et permettent d’effectuer une analyse poussée du contenu de l’image et de la compression de très haute qualité. » Avec le développement des processeurs, le principe d’intelligence à la source ne peut donc que gagner du terrain.

« Une architecture décentralisée permet de libérer le serveur afin de l’assigner à d’autres tâches ou lui permettre de prendre en charge un plus grand nombre de caméras »

Décentralisation : les bénéfices de l’intelligence à la source

Une solution de vidéosurveillance traditionnelle, où l’analyse de l’image reste concentrée au niveau d’un serveur central, trouve assez vite ses limites. En effet, un seul serveur, même puissant, ne pourra pas traiter plus de 8 à 16 caméras maximum. Ce constat est d’autant plus valable que, les résolutions d’image augmentant, et malgré les efforts déployés en matière de compression, les opérations d’encodage et de décodage mobilisent énormément de ressources processeur. Il semble donc plus que justifié de traiter le problème à la source, par l’emploi de caméras prenant en charge des capacités d’analyse de l’image.

Patrice Ferrant : « La plupart des installations nécessitent un logiciel de gestion implanté dans un PC, et chargé de traiter toutes les données en provenance des caméras du système. Les flux vidéo en provenance des caméras sont donc envoyés en permanence au serveur central. Or, la plupart du temps, aucun événement ne se produit à l’image. Donc, que fait le serveur la plupart du temps ? Il se charge de traiter des images qui n’ont aucun intérêt. Il est plus pertinent de ne fournir des images qu’en cas de réel besoin. D’où la nécessité d’intégrer de l’intelligence directement dans la caméra. Une architecture décentralisée, telle que nous la concevons chez Mobotix, est basée sur l’usage de caméras, dans lesquelles ont été intégrés un logiciel d’analyse et un stockeur. De telle manière que les fonctions associées à l’enregistreur dans une architecture centralisée ont été déportées dans les caméras elles-mêmes. Bien sûr, une architecture décentralisée peut être centralisée au niveau de l’enregistrement, mais l’essentiel des capacités de traitement peut être implémenté directement dans les caméras. »

 

Dès lors, une architecture décentralisée multiplie les possibilités d’exploitation de la vidéosurveillance. Comme le rappelle Mathieu Lesieur (Sony), « plus une caméra intègre de fonctions, plus le serveur peut être sollicité pour d’autres tâches ou prendre en charge un plus grand nombre de caméras. C’est l’objectif d’une architecture décentralisée. Il est également possible de gagner en bande passante, dans la mesure où une caméra intelligente ne va envoyer de flux vidéo qu’en cas d’événement. En découlent des enregistrements plus pertinents qui permettent de gagner en stockage. »

 

Arnaud Lannes : « La décentralisation présente plusieurs avantages, à commencer par le coût. En effet, le prix d’un serveur est divisé par le nombre de caméras auxquelles il est relié. Avec un système décentralisé, le coût est estimé en fonction des besoins réels. Avec la solution proposée par Bosch, un utilisateur décide d’acquérir ou non une licence IVA (Intelligent Video Analysis) pour tout ou partie des caméras de son installation. Une solution décentralisée permet donc d’abaisser fortement les coûts, notamment sur les petites et moyennes installations. Deuxième avantage, la maintenance. A partir du moment où l’intelligence est déportée dans la caméra, la maintenance du serveur est considérablement réduite. En effet, contrairement au serveur, le processeur d’une caméra ne fonctionne pas sous Windows, il ne nécessite donc pas d’anti-virus et reste bien moins exposé aux attaques informatiques. Troisième avantage, la mise en œuvre : la configuration d’une caméra intelligente, effectuée via un navigateur ou un logiciel dédié, est en général très simple. Quatrièmement, une solution décentralisée possède cet avantage de pouvoir tourner en cas de panne. Dans le cas d’une solution centralisée, si le serveur tombe en panne, tout le système est paralysé. Sur une solution IP décentralisée, une caméra qui tombe en panne n’entrave pas le fonctionnement du reste de l’installation. »

 

Enfin, suggère Patrice Ferrant, « au lieu d’imposer son infrastructure, un système de vidéosurveillance devrait au contraire s’adapter aux moyens existants. Par exemple, lors de la mise en place du projet d’une commune, celle-ci ne possède pas forcément de réseau en fibre optique. Elle préfère peut-être travailler en radio. Il est donc nécessaire de fournir une solution adaptée à telle ou telle nature de réseau. En allégeant les problématiques liées aux réseaux, l’intelligence embarquée permet davantage de souplesse de mise en œuvre. En somme, nous considérons qu’une caméra est un produit de connectivité, adaptable à tous types d’installation, sans pour autant engendrer d’investissements importants. »

Intelligence embarquée : les stratégies des constructeurs

> Bosch Security Systems : l’IVA (Intelligent Video Analysis)

Solution logicielle embarquée dans une caméra IP ou un encodeur, l’IVA propose de nombreuses fonctionnalités d’analyse de l’image : en détection et suivi d’objets (mesures métriques, entrée/sortie de zone, filtres de taille, vitesse et couleurs d’objets, suivi de trajectoires, disparition d’objets, franchissement de lignes virtuelles, comportements suspects, filtre de détection de « têtes ») et en analyse de flux (détection d’individus à contre-sens dans un mouvement de foule). Arnaud Lannes : « à travers l’IVA, nous envisageons la vidéosurveillance intelligente sous deux angles. Premièrement, l’intelligence à la source, en ce sens où la caméra, qui est un capteur avant tout, possède des capacités qui lui permettent de générer des alarmes. Deuxièmement, la recherche contextuelle. C’est-à-dire qu’une caméra intelligente peut, outre la transmission d’alarmes, transmettre également des métadonnées qui vont être exploitées a posteriori sur le moteur de recherche contextuelle. L’IVA est une licence complémentaire, si bien qu’un client peut à tout moment faire évoluer son installation de caméras IP Bosch. »

> Sony : la technologie DEPA Advanced (Distributed Enhanced Processing Architecture)

Sony est le premier constructeur à avoir sorti, en 2006, une gamme complète de caméras intelligentes. Depuis, tous les modèles de la marque sont équipés de la technologie DEPA. L’architecture DEPA permet un traitement préalable de l’image au sein même de la caméra, ainsi qu’un traitement postérieur au sein des solutions d’enregistrement et de contrôle. Pour une exploitation intelligente du réseau, les métadonnées d’image et d’alarmes générées par la caméra sont transmises sur demande vers la solution d’enregistrement.

Mathieu Lesieur : « Les caméras équipées DEPA Advanced sont enrichies de 4 grandes fonctionnalités. Premièrement, un système de filtrage des fausses alarmes, notamment en environnement extérieur. En matière de détection de mouvement, la technologie DEPA ne se contente pas d’analyser une image par rapport à l’image précédente, mais par rapport aux 15 images précédentes. Cette capacité permet à la caméra de distinguer le mouvement d’un individu d’un mouvement non suspect comme celui des feuilles, de l’eau. Tout changement de pixels d’une image à l’autre est analysé plus précisément. Deuxièmement, des capacités d’analyse par filtres comme le franchissement et la sortie de zones, la mesure de capacité d’une zone, le passage/comptage, l’abandon/disparition d’objet. Troisièmement, des fonctionnalités d’auto-diagnostic de la caméra, dès lors capable de lancer une alerte si elle fait l’objet d’une tentative de vandalisme, de masquage, etc. Quatrièmement, une fonctionnalité d’analyse audio : dans les situations où l’enregistrement de l’audio est autorisé, une caméra équipée DEPA Advanced est capable d’analyser un bruit suspect et, le cas échéant, de remonter une information d’alarme. C’est une fonctionnalité particulièrement utile dans les situations d’obscurité profonde, où un éclairage peut être déclenché lors d’une détection. »

> Axis : des produits ouverts aux applications tierces

Axis poursuit ses initiatives en faveur de solutions de vidéosurveillance ouvertes avec le développement d’une plateforme de mise à jour des fonctionnalités d’analyse embarquée. 

Philippe Bénard : « À l’instar de l’iPhone, nos produits disposent d’un espace destiné à recevoir des applications partenaires. Cette disposition nous paraît essentielle dans la mesure où plus une caméra dispose de fonctions intelligentes, plus elle trouve d’applications dans un nombre croissant de domaines. On le constate aujourd’hui, la VSI n’investit plus le strict domaine de la sécurité, mais trouve des applications dans l’industrie, la grande distribution, avec des implications logistiques, marketing, de contrôle qualité, etc. Voilà pourquoi nos produits restent ouverts aux solutions développées par les éditeurs spécialisés en VSI. Dans cette optique, nous leur fournissons les outils de développement qui vont leur permettre de porter leurs applications dans nos caméras. Ensuite, nous testons puis validons une solution et, le cas échéant, nous la proposons sur un espace web dédié à nos clients. Cet espace propose pour le moment une fonctionnalité de franchissement de lignes et sera prochainement enrichi d’autres applicatifs. »

> Mobotix : traitement et stockage de l’image déportés dans la caméra

Depuis ses origines, Mobotix s’investit dans la conception de caméras intelligentes haute résolution. Dotés de processeurs puissants et d’une mémoire de stockage étendue, les produits Mobotix sont particulièrement pourvus en capacités de traitement et d’analyse de l’image.

Patrice Ferrant : « Une caméra Mobotix intègre nativement différents niveaux de fonctionnalités, destinées à corriger et traiter l’image. Des fonctions de correction d’image sont chargées d’optimiser la qualité de l’image à la source. Des fonctions de génération d’image permettent, notamment, d’adapter le format de l’image aux contraintes du réseau. Des fonctions d’analyse d’image développent des capacités en détection de mouvement, mais aussi en détection de bruit. En fonction d’une zone de référence prédéfinie, une caméra Mobotix est capable de réagir à une logique d’événement : tout changement est analysé par rapport à cette zone de référence afin de faire le tri entre les mouvements réels et les parasites générés par l’image. Les produits Mobotix sont par ailleurs dotés de capacités de gestion d’événements : transmission d’alertes, par envoi de flux d’images mais aussi audio (en VoIP). Par ailleurs, il est possible de rajouter des fonctionnalités dédiées à d’autres usages : codecs de prévisualisation, enregistrement en local sur carte SD ou sur serveur externe permettant du playback (recherches d’événements). Enfin, nos caméras peuvent également assurer la gestion des alarmes : envoi d’e-mail, IPnotify permettant un dialogue entre les équipements d’une installation en réseau. »


Commentaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *


The reCAPTCHA verification period has expired. Please reload the page.