Kili Technology, industrialiser l'annotation pour le machine learning - Kili Technology

Written by Fx Leduc | Oct 4, 2019 4:07:29 PM

Et comprendre ce qu’est l’annotation de données image, texte, voix

Nous expérimentons tous que l’intelligence artificielle va transformer notre société; en revanche, nous ne savons pas comment, ni dans quelle mesure.

Deux choses sont certaines:

  • Le sujet, longtemps circonscrit aux laboratoires, est en train de passer aux applications industrielles
  • Et cela va transformer beaucoup de chose

Ray Kurzweil pense qu’en 2035, le cerveau humain sera égalé et dépassé par la puissance de calcul informatique.

L’intelligence articificielle, c’est traiter automatiquement la donnée non structurée

Les scientifiques ne sachant par encore vraiment comment le cerveau humain fonctionne, je ne vais pas me lancer dans une grande définition de ce qu’est ou n’est pas l’intelligence artificielle.

Pour faire simple, c’est être capable de traiter la donnée non structurée. Soit 80 à 90% de la donnée disponible: image, email, chat, phone, scan, news, …

Jusqu’à il y a peu, on ne savait pas la traiter. Aujourd’hui, cela devient possible grâce à la révolution technologique du deep learning.

Ce qu’on appelle l’IA chez Kili, c’est la capacité à traiter cette donnée avec l’aide de la machine.

L’IA forge déjà le futur de beaucoup d’entreprises et transforme en profondeur tous les secteurs 

Regardons l’automobile, industrie d’huile et de piston il y a encore 10 ans. C’est en train de devenir l’une des industries les plus génératrices de données. Merci Tesla & Google… General Motors, Renault vendent encore des voitures. Mais ils offriront une prestation de mobilité… ou perdrons la maîtrise de leur chaîne de valeur en laissant la place à Uber.

Regardons la santé, en France seulement, le nombre de morts liés à des erreurs médicales, serait de plusieurs dizaines de milliers par an (même si les médecins n’arrivent pas à s’accorder sur les chiffres). Demain les radiologues, les oncologues, seront tous assistés dans leur diagnostic, dans leur prescriptions, pour se concentrer sur ce qui fait leur valeur : le discernement. L’intelligence artificielle commence déjà à sauver des vies car elle plus adaptée que l’homme sur ces tâches complexes et très verticales.

Et sur un sujet plus transverse, elle transforme les modes opératoires et est une source de compétitivité. Elle diminue la pénibilité de tâches simples à faible valeur ajoutée dans les back-offices par ex, et elle tire le meilleur parti de la complémentarité homme/machine: la machine excelle sur le répétitive à périmètre limité, là ou l’homme se fatigue vite, et elle revalorise l’expertise et le discernement humaine, là ou la machine reste bête.

La donnée annotée, c’est le nerf de la guerre

Pour faire de l’IA il faut 3 composantes: des algorithmes, de la puissance de calcul, de la donnée. 

  • Nous avons tous sur nos téléphones la puissance de calcul du programme Apollo. Sans parler de celle qu’on peut louer en quelques click chez Google ou AWS.
  • L’état de l’art algorithmique est accessible en open source sur Github.
  • Pour la donnée, ce n’est pas le volume qui manque: d’ici 2025, on devrait atteindre 175 Zettaoctet (de quoi aller jusqu’à la lune… 23 fois, si on la stockait sur des blue ray)… L’enjeu, c’est de la rendre assimilable par les modèles. C’est l’annotation. Et nous en avons tous déjà fait grâce à Facebook, lorque nous taggions ses amis sur les photos…

Bref, la clef pour industrialiser de l’IA, c’est la data et la data labellisée.

Kili, créer deux fois plus vite une donnée d’entrainement de meilleur qualité

Aujourd’hui 80% des projets avortent ou restent à l’état de POCs, en grande partie par défaut de données d’apprentissage image, texte, audio, en qualité et en quantité suffisante. Rare sont les entreprises qui ont déjà intégrées qu’il faut créer les datasets pour traiter les sujets. Et non choisir les sujets pour lesquels la donnée est disponible. Et lorsque cela est compris, la donnée annotée reste l’un des principaux goulots d’étranglement au déploiement de machine learning. La tâche d’annotation étant manuellement principalement, elle peut devenir très couteuse et prendre énormement de temps. 

Kili permet de 

  • créer des interfaces sur mesure, simples et intuitives, pour permettre au métier de réalise la tâche d’annotation d’image, de texte, et d’audio
  • accélérer l’annotation en mettant en place de l’apprentissage online afin de pré-annoter,  de l’apprentissage actif afin de se concentrer sur les éléments les plus impactants, et de l’apprentissage faiblement supervisé pour accélérer massivement la tâche
  • de maitriser la qualité de la donnée produite
  • s’intégrer facilement dans un pipe line de data science
  • et faciliter la supervision humaine en production

Nous aidons les entreprises à réaliser leurs futur, en industrialisant la création et la gestion de la donnée annotée.