Agents de changement

Raja Bala : La vision d’un avenir meilleur

La curiosité innée de Raja’ au sujet du fonctionnement des choses en a fait un de nos inventeurs les plus prolifiques

Exploiter la puissance de la vision par ordinateur

Raja Bala est chercheur principal en vision par ordinateur à PARC, une entreprise de Xerox. Au cours de ses deux mandats chez Xerox, la curiosité innée de Raja sur le fonctionnement des choses l’a amené à être l’un de nos plus prolifiques inventeurs. Elle lui a aussi appris que la vision par ordinateur transformera notre vie

Et si un égoportrait suffisait à diagnostiquer une maladie? Et si vous pouviez vous rendre au travail et en revenir sans jamais toucher au volant? Et si vous pouviez entrer dans une épicerie, y choisir vos articles et en sortir sans avoir à attendre à la caisse, le montant étant automatiquement déduit de votre compte de banque?

Ce n’est pas de la science-fiction. C’est le monde que Raja Bala aide à bâtir. Un monde où les ordinateurs peuvent voir, interpréter et analyser les choses autour d’eux, et utiliser cette information pour prendre des décisions en temps réel pour solutionner les problèmes du monde concret. Découvrez avec nous l’homme derrière la technologie.

Comment vous êtes-vous intéressé à la vision par ordinateur?

Dans le foyer où j’ai grandi, les maths et les sciences occupaient une place importante. Ma mère enseignait les sciences. Mon père était ingénieur. Mais j’ai toujours aimé les mathématiques pour lesquelles j’avais du talent. Je n’ai jamais complètement été une personne de «cerveau gauche». Je suis musicien. J’aime les arts. Quand j’ai envisagé ma future carrière, j’ai cherché quelque chose qui pouvait satisfaire tous mes intérêts.

La vision par ordinateur n’était pas mon premier choix. Quand j’ai commencé chez Xerox en 1993, j’étais expert en imagerie couleur. À cette époque, Xerox passait de l’impression noir et blanc à l’impression couleur. J’ai dirigé plusieurs projets de développement de solutions de gestion de la couleur pour les imprimantes et les numériseurs Xerox. Ce n’est qu’en 2011, après une acquisition, que j’ai entrevu la possibilité et le potentiel de la vision par ordinateur. J’ai fait la transition et j’y suis toujours.

Dites-nous ce qu’est la vision par ordinateur et sa pertinence dans le monde d’aujourd’hui.

La vision par ordinateur est la science qui étudie comment les machines analysent, interprètent et extraient des renseignements utiles à partir d’images et de vidéo, puis utilisent ces renseignements pour résoudre des problèmes dans le monde réel. Dans notre travail, mon équipe et moi essayons de prendre une image numérique ou vidéo, de la transformer en une représentation mathématique qu’un ordinateur peut comprendre, puis d’enseigner à l’ordinateur à effectuer une tâche en utilisant cette représentation, par exemple détecter si un image comporte un visage.

Si la vision par ordinateur existe depuis les années 60, elle était alors limitée par la faible disponibilité et l’accessibilité d’images numériques. L’analyse des images était réservée à des usages spécialisés, comme le domaine médical, et n’était pas largement répandue. Avec l’arrivée des téléphones intelligents et d’entreprises comme Google et Facebook facilitant l’accès aux images dans des vastes bases de données interrogeables, le statut de la vision par ordinateur, sa pertinence et sa popularité dans les marchés de consommation ont explosé. L’abondance des données d’images et de vidéos générées par les consommateurs, combinée aux algorithmes avancés et à l’équipement informatique pour les traiter, changent notre perception de ce domaine.

Restent-ils des défis à relever aujourd’hui dans le domaine de la vision par ordinateur, en dépit de ces développements?

À l’heure actuelle, l’apprentissage profond et son application à la vision par ordinateur soulève beaucoup d’intérêt. L’apprentissage profond est une méthode très efficace d’extraire des images des schémas utiles. Son fonctionnement repose sur l’acheminement de beaucoup d’images dans un réseau neuronal ainsi qu’un schéma ou une vérité associés concernant ces images. Le réseau apprend ensuite un ensemble de connexions et de facteurs de pondération qui lui permettent d’identifier le même type de schémas ou de vérités dans les nouvelles images.

Quand vous travaillez avec un large ensemble de données, l’apprentissage profond peut tout changer. Un réseau profond peut comprendre des schémas et des relations extrêmement complexes dans les images et réussit très bien les tâches pour lequel il a été formé. Il y a toutefois un problème fondamental. La réussite de l’apprentissage profond dépend de la disponibilité d’ensembles de données comportant des millions d’images et de leurs étiquettes de référence-terrain. Beaucoup d’applications n’ont pas accès à autant d’images et d’étiquettes.

Dans le domaine médical, par exemple, vous utiliserez peut-être l’apprentissage profond pour aider à diagnostiquer une maladie particulière. Cela implique de former le réseau profond avec des millions d’images d’organes qui sont marqués avec différents niveaux de gravité de la maladie. Ce volume d’image n’existe tout simplement pas. Et même s’il existait, on aurait jamais les moyens d’avoir un groupe d’experts cliniques pour étiqueter toutes ces images.

On se demande alors comment imaginer une solution à ce problème? Comment modifier l’apprentissage profond pour prendre des décisions intelligentes basées sur un apprentissage limité?

Nous avons examiné de nouveau les modèles de principes de base utilisés dans la période précédent l’apprentissage profond et nous les avons utilisés pour bâtir une connaissance préliminaire sur la tâche et l’environnement dans un réseau profond. Pour enseigner à un réseau profond à reconnaître les vaisseaux sanguins dans des images rétiniennes, par exemple, nous offrons au réseau des indices indiquant qu’il doit chercher des structures courbées très fines qui se ramifient comme un arbre. Grâce à ces indices, le réseau requiert beaucoup moins d’images et, en fait, donne de meilleurs résultats que les méthodes d’apprentissage profond les plus avancées aujourd’hui.

Vous n’avez pas toujours travaillé chez Xerox n’est-ce pas?

Exact. Après 22 ans chez Xerox, j’ai décidé de me tester dans un nouvel environnement, le groupe de création d’images pour téléphones intelligents de Samsung, afin de développer des techniques de création d’images informatiques pour les appareils Galaxy et Note.

Qu’avez-vous appris de cette expérience?

Une nouvelle appréciation de la simplicité. La plupart des produits Xerox sont utilisés dans un environnement de bureau où les utilisateurs sont minimalement familiers avec la technologie. Mais presque chaque personne dans le monde a un téléphone intelligent dans sa poche. Travailler sur un produit de consommation comme celui-ci exige de s’adapter à chaque niveau d’expérience avec la technologie. Il s’agit de faire quelque chose de facile à utiliser pour un expert ou un débutant. Il faut des milliers d’heures pour atteindre ce niveau de simplicité. Un travail incroyable est nécessaire pour s’assurer que chaque clic fait exactement ce qu’il est censé faire.

Quand on revient dans l’environnement de recherche de Xerox, on sait comment transformer une bonne science en un produit qui a de l’impact. Publier un excellent article scientifique est une chose. Mais pour que votre recherche permette la création d’un produit qu’un utilisateur final peut vraiment utiliser, il faut que ce produit soit infaillible, simple et aussi intuitif que possible. Il faut vraiment faire cet effort supplémentaire.

Par exemple, vous développez une appli de numérisation de documents intelligent. Traditionnellement, la vision par ordinateur exige une puissance de traitement élevée, ce qui n’est pas largement disponible sur un appareil portable. Si vous voulez que votre solution ne soit pas seulement un exercice théorique, il faut qu’elle soit non seulement exacte, mais aussi rapide et écoénergétique. Sinon les gens ne l’utiliseront pas.

Lequel de vos projets a eu le plus d’impact sur le monde?

Mon équipe a collaboré avec Proctor and Gamble, développant la technologie de vision par ordinateur et d’apprentissage machine pour optimiser «Olay Skin Advisor». C’est une plateforme mobile qui capture un autoportrait de la consommatrice, analyse son visage et recommande des produits de soin de la peau.

Idéalement, on devrait toujours pouvoir discuter avec un dermatologiste des problèmes de peau. Mais c’est dispendieux. Et comme les soins de la peau constituent un processus sans fin, la plupart des gens n’ont pas les moyens. Quant à prendre soin de sa peau soi-même? Allez dans un magasin de produits pour la peau. Il offre des centaines de produits. C’est frustrant, déroutant et il est facile de se tromper. Moins des deux-tiers des femmes savent quels produits conviennent à leur type de peau.

P&G cherchait à solutionner ce problème grâce à un navigateur de soins de la peau personnalisé et peu dispendieux. Nous avons donc mis au point une appli mobile facile à utiliser. On s’est dit : pourquoi ne pas profiter des caméras haute qualité que les consommatrices ont sur elles de toutes façons?

Pour utiliser cette appli, une consommatrice prend d’abord une photo de son visage. L’image est analysée grâce à la vision par ordinateur pour déterminer si elle est suffisamment bonne pour effectuer une analyse de la peau, vérifiant la luminosité, la distance, l’expression faciale et l’absence d’obstructions. Si l’image satisfait ces tests, l’appli analyse alors la peau de la consommatrice, l’informe de son état et suggère des produits et des changements de régime pour en prendre soin.

Nous avons plus d’un million d’utilisatrices actives et on compte cinq millions de visites sur le site depuis le lancement de l’appli.

Quel domaine de la vision par ordinateur est le plus stimulant pour l’avenir?

La vision par ordinateur et le champ plus large de l’IA constituent un domaine fantastique aujourd’hui. Ce n’est que récemment que ce domaine s’est développé suffisamment pour avoir un impact significatif, réel et généralisé dans le monde, que ce soit pour des tâches routinières comme le dépôt automatique de chèques avec un téléphone intelligent ou des applications complexes comme la conduite autonome et le diagnostic précoce. Il y a un grand nombre d’applications et elles ne cessent d’augmenter. En essayant de rendre ces applications encore plus exactes et fiables, nous sommes confrontés à de nombreux problèmes scientifiques non résolus et à des défis d’ingénierie.

Mais ce qui personnellement me stimule le plus c’est de poursuivre mon travail et d’élaborer des méthodes de vision par ordinateur qui s’appuient sur les modèles du monde précédents et d’apprendre des exemples de données. Ces modèles vont des vaisseaux sanguins rétiniens à la connaissance usuelle des objets quotidiens, des gens et des lois de la nature. Grâce à l’environnement riche et stimulant pour l’innovation offert par Xerox, nous sommes fin prêts à intégrer ces modèles du monde réel dans des méthodes d’apprentissage machine afin de créer une forme d’apprentissage hybride. Je ne saurais penser à un domaine de recherche plus stimulant!

Agents of change

Agents de changement

Nous avons tous changé le monde. Chacun d’entre nous. Chaque fois que nous respirons, notre présence se propage vers l’extérieur.

Mais peu d’entre nous ont l’occasion de changer un grand nombre de vies pour le mieux. Et encore moins si elles doivent le faire chaque jour. Voilà le défi lancé quotidiennement aux chercheurs de Xerox : essayer et produire des changements.

En échange, nous leur donnons le temps et l’espace pour rêver. Puis les ressources pour transformer les rêves en réalité, que ce soit pour inventer de nouveaux équipements ayant des fonctions incroyables ou pour utiliser la réalité augmentée pour stimuler la mémoire des patients atteints d’Alzheimer.

Nous sommes fiers de nos agents de changement oeuvrant dans les centres de recherche de Xerox à travers le monde. Voici quelques-unes de leurs histoires.

Innovation Xerox

Découvrez certains des esprits les plus brillants sur la planète rassemblés dans nos centres de recherche à travers le monde pour améliorer l’avenir du travail. En savoir plus