Categories
Actualité

La nouveauté, ça se mesure comment ?


Sur quelle nouveauté miser ?
Serez-vous évalué à terme grâce à des « indicateurs de nouveauté » ? On tente de vous expliquer.

Comment mesurer la nouveauté ? Si l’on suit la pensée du célèbre économiste Joseph Schumpeter, il s’agit de la combinaison inédite de concepts. Quoi de plus naturel donc que de l’appliquer aux publications ? Pour juger de la nouveauté d’un papier, il suffirait d’examiner si les mots-clés ou les références – plus précisément les revues citées – ont déjà été associés… ou pas.

C’est ainsi qu’est né ce sujet, depuis une petite dizaine d’années chez les bibliomètres, où il est principalement porté par des économistes. Les objectifs ? Développer des outils pour l’évaluation – le Hcéres travaille sur le sujet en France – mais aussi mieux comprendre comment émergent les nouvelles idées en recherche.

Critère de nouveauté à la main, ces chercheurs écument les bases de publications et étudient leur impact. Avec deux observations : les articles novateurs sont plus cités en moyenne… mais après plus longtemps que les autres. Une chose en entrainant une autre, ces scientifiques “novateurs” ont donc paradoxalement moins de chance d’être financés même s’ils candidatent plus aux appels à projet.

Des infos à venir. Michele Pezzoni, maître de conférence en sciences économiques, cherche à comprendre comment se diffuse la nouveauté et à dessiner le portrait robot des équipes “novatrices”, notamment en physique. Trop d’homogénéité des profils au sein de l’équipe ou une trop grande ancienneté peuvent être des freins, a-t-il découvert lors d’une étude à paraître bientôt. 

La suite ?  « L’avenir de la discipline sera d’utiliser le traitement automatique du langage [dont nous vous parlions justement  et qui vient d’être appliquée aux brevets, NDLR] pour analyser le contenu des articles », confie Michele Pezzoni, également conseiller pour l’Observatoire des sciences et technologies du Hcéres. Ce dernier est d’ailleurs sur le coup.

Categories
Actualité

Mais qui veut des chaires junior ?


Le jeu des chaires musicales
Le ministère peaufine le texte de la mesure phare de la Loi Recherche, au grand dam des syndicats.

 Si vous avez raté le début.  Les chaires de professeur junior (CPJ) ou « tenure track à la française » occupent toujours les esprits, même après d’âpres négociations et certains aménagements. Définitivement votées dans la Loi Recherche, il s’agit maintenant pour le ministère de les faire adopter par les établissements.

En approche forcée. Mardi 15 juin au matin, tous les syndicats — opposés à la mesure depuis le début — étaient réunis pour discuter de la version finale du texte qui devrait paraître au Journal officiel pendant l’été ou juste après, le ministère y tenant mordicus. C’est cette version que nous vous détaillons ici : 
Des contrats de trois ans minimum  et six ans maximum avec 200 000 euros de dotation financés par l’ANR sur la durée du contrat. C’est significatif sur trois ans mais semble peu si la chaire dure six ans. 
Un salaire de milieu de grille :  les élu·es percevront environ 3 400 euros bruts par mois, soit l’équivalent d’un échelon 6 ou 7 pour un maître de conférences. Au bout, éventuellement : un poste de professeur ou de directeur de recherche. 
Un comité de recrutement constitué de pairs…  mais nommé par les chefs d’établissement, qui contourne les instances habituelles. 
Un recrutement sur appel à projet :  le projet du candidat sera porté par un financement de l’Agence nationale de la recherche. Le contrat est assorti d’une période d’essai de deux mois renouvelable une fois. 
Une charge d’enseignement allégée  à savoir 42h de cours (64h de TP/TD) pour un futur professeur, 28h (42h de TP/TD) pour un futur directeur de recherche. 
Une convention signée après le contrat de travail  qui fixe la répartition des moyens, les objectifs en termes de publication (!) ou de valorisation des travaux, etc. 

Les CPJ feront-elles florès ? On a du mal à cerner les potentiels clients de ces CPJ parmi les établissements, qui disposent déjà de moyens moins contestés d’attirer des chercheurs “stars”. CNRS et universités de recherche intensive ont-ils été échaudés par la bronca des chercheurs ? Les quotas de CPJ votés dans la loi Recherche ressemble donc à des maximums inatteignables.
Categories
Interview

Christophe Servan : « Les linguistes sont de moins en moins financés »

Mieux avec moins, c’est l’objectif de Christophe Servan, responsable scientifique chez Qwant. Un enjeu également présent dans la recherche académique. Ce chercheur est aussi le président de l’ATALA, société savante du domaine.

Quelle est la particularité du moteur de recherche Qwant ?

Chez Qwant, nous ne collectons pas les données personnelles de nos utilisateurs pour des raisons éthiques. Notre modèle d’affaires est donc différent car nous ne pouvons pas, par exemple, personnaliser la publicité. Nous avons aussi une approche technique différente de celle de nos concurrents [avec une puissance de calcul bien moindre que celle des Gafam, NDLR]. Le profilage qui permet de distinguer entre jaguar, voiture ou animal, grâce à l’historique, est chez Qwant impossible.

Comment se positionner dans cette course à la puissance ?

Il faut inventer des modèles plus malins. Les êtres humains apprennent à parler avec beaucoup moins de données que les récents algorithmes ! Nous nous concentrons également sur des tâches spécifiques, par exemple enrichir ou catégoriser des requêtes. Cela passe enfin par le développement de modèles de meilleure qualité, comme l’a fait Inria avec son modèle CamemBERT.

La langue française est-elle être en danger ?

Tout d’abord, les linguistes sont de moins en moins financés. On manque donc d’étude sur l’évolution de la langue française ces vingt dernières années, par exemple. De plus, le français est moins bien doté que l’anglais donc certains outils sont moins performants, voire manquants. Ce qui n’encourage pas à les utiliser ; il pourrait en effet y avoir un effet de cercle vicieux. Il faudrait encourager les publications en français, notamment dans la recherche !
Categories
Actualité

Qui ouvrira la boîte noire du langage ?


Imaginez que l’ouvre-boîte n’existe pas
Le tournant du “deep learning” a permis des progrès dans les applications mais pas forcément dans la compréhension des mécanismes du langage.

Alignement des étoiles. Assiste-t-on à un tournant dans le domaine du langage ? Pour François Yvon, informaticien à Paris Saclay, c’est une certitude : d’énormes avancées ont été permises grâce à des ordinateurs plus puissants, des bibliothèques logicielles plus étoffées – deux lignes de codes suffisent aujourd’hui quand il fallait une thèse il y a 20 ans – et l’impressionnante quantité de données disponibles.

De l’ombre à la lumière. Pour Christophe Servan (voir notre interview ), l’explosion est également du côté des usages. Traduction automatique, reconnaissance vocale, chatbot… ont accompagné l’émergence des smartphones, propulsant sur le devant de la scène des recherches initiées depuis des dizaines d’années, notamment via les Gafam : « C’est très enthousiasmant de sortir de l’anonymat ».

Un vent d’optimisme. Ce champ disciplinaire, austèrement nommé traitement automatique du langage naturel pour le différencier du langage formel des ordinateurs, est né dans les années 1950, en pleine guerre froide, au moment où les Américains cherchaient à traduire les publications soviétiques. Ce vent d’optimisme a permis de larges financements (▼ voir le trombi ▼), suivi d’une rapide désillusion. Jusqu’à sa renaissance aujourd’hui. 

Pari sur les machines. Au croisement de la linguistique, de l’informatique et de l’intelligence artificielle, son objectif est à la fois de comprendre les mécanismes fondamentaux du langage et de développer des outils de traitement. Sauf que le premier objectif est un peu passé à la trappe avec l’engouement pour l’apprentissage profond (le fameux deep learning), méthode aujourd’hui majoritaire au sein de l’IA.

Heureux hasard. « L’avantage de sortir de l’approche symbolique [plus de détails ici, NDLR], c’est que l’approche numérique permet de construire des représentations plus fines des unités linguistiques », analyse François Yvon. Le nouvel algorithme GPT-3 d’OpenIA, la société d’Elon Musk, arrive ainsi à deviner le prochain mot d’une phrase, jusqu’à construire des énoncés qui ont en apparence une cohérence syntaxique et même thématique. Ce système est donc en capacité de répondre aux questions d’un utilisateur, voire de résumer des textes, par pure logique probabiliste.

Gros moyens. Tout cela est au prix du déploiement d’une véritable machine de guerre informatique. Un bazooka pour ouvrir une boîte de conserve, en quelque sorte. Mais qu’y a-t-il dans la boîte ? On tarde à le savoir. Cette recherche portée par les Gafam occulte d’autres aspects plus fondamentaux de la recherche sur le langage et détourne les financements de la linguistique pure.

Issue incertaine. En effet, l’intelligence des algorithmes n’est pour l’instant qu’un leurre : si les systèmes paraissent plus intelligents qu’il y a trente ans, ils sont juste plus efficaces. « Les calculs ont été largement optimisés pour effectuer des traitements simples sur des grandes masses de données, au détriment d’analyses visant à la compréhension profondes des énoncés. Jusqu’où pourrons-nous aller dans cette voie ? », s’interroge François Yvon. 

Ce qu’on sait aujourd’hui.  Créer des systèmes qui assimilent nos connaissances communes et peuvent nous répondre de façon cohérente. 

Ce qu’il reste à faire.  Rendre ces systèmes plus éthiques (voir encadré) et essayer de percer les mystères du langage.
Et l’éthique dans tout ça ?
 
Pour la linguiste Emily Bender et l’informaticienne Timnit Gebru, récemment congédiée par Google pour ses travaux sur les aspects éthiques de l’IA, l’apparition de modèles de grande ampleur ne va pas sans risques. Les biais de nos sociétés (racistes, sexistes… ) ressortent de ces “perroquets stochastiques” que sont les algorithmes, les idées discriminantes ou haineuses étant potentiellement surreprésentées dans les données. Des solutions sont envisageables : filtrer certains discours de la machine, améliorer la qualité des données ou aller vers plus de transparence. Qu’y a-t-il sous le capot ? Si la plupart des algorithmes étaient auparavant en open source, le dernier GPT-3 ne l’est pas.
Les grands anciens du langage

Claude Shannon  Inspiré par Markov avant lui, le mathématicien Claude Shannon présente dès 1948 sa théorie de l’information, qui servira de base aux modèles de langage. 

Alan Turing Alan Turing est sans conteste le père de l’intelligence artificielle avec son fameux test proposé en 1950 : une machine peut-elle se faire passer pour une humain ? 

Noam Chomsky Profitant de l’engouement, le célèbre linguiste Noam Chomsky conduit à partir de 1957 des travaux fondamentaux sur la grammaire et la cognition, qui se révèleront révolutionnaires. 

Joseph Weizenbaum Au sein du groupe fondé par Marvin Minsky et John McCarthy au MIT, Joseph Weizenbaum crée en 1966 le premier chatbot, ELIZA, qui réussira partiellement le test de Turing. 
Categories
Interview

« Ces publis sont le signe d’un dysfonctionnement »

Tous deux chercheurs, Guillaume Cabanac et Cyril Labbé ont développé un outil pour détecter les faux articles et scrutent la littérature scientifique.

Est-ce simple de générer un faux article ?

GC Pour un informaticien, oui. Auparavant, l’outil SCIgen était accessible à tous via un formulaire en ligne mais ne fonctionne plus ; le code reste disponible et c’est juste un script à lancer. Il existe aussi des variantes pour d’autres disciplines : Mathgen, PhysGen… On peut également paramétrer, en plus du titre et des auteurs, le vocabulaire utilisé. Puis, après avoir récupéré le code LaTeX, il est possible d’ajouter de vraies références.

Quel est le but des auteurs ?

GC Il y a plusieurs cas de figure. Certains chercheurs veulent juste s’amuser et générer un faux papier co-signé avec Albert Einstein par exemple. On en a même retrouvés sur des pages personnelles de sites officiels (CNRS, universités…), sans aucune précision. Le problème est que Google indexe tous ces articles; comme l’avait montré Cyril en créant un faux auteur : Ike Antkare [qui s’était retrouvé dans les highly cited researchers en 2010, NDLR].

Et pour les faux articles qui se retrouvent dans des revues ?

CL
En effet, certains chercheurs soumettent ces articles à des revues… et ils sont parfois acceptés. Les objectifs sont clairs : le bourrage de CV ou la manipulation de citation.
GC Quelques chercheurs génèrent également de faux articles en leur nom pour piéger les revues. Mais là aussi, il faut faire attention à ne pas créer la confusion entre les vrais et les faux.

Les reviewers peuvent-ils détecter facilement ces faux articles ?

CL
Oui, un faux article dans sa discipline se remarque tout de suite. Quand certains sont acceptés dans des revues cela signifie qu’il n’y a pas eu de peer-review ou que les reviewers étaient incompétents.
GC Parfois, c’est subtil : seul un paragraphe est généré automatiquement. Il faut alors lire attentivement l’article en entier pour le remarquer.

L’outil de détection que vous proposez est-il la solution ?

CL Si la détection est faite après publication, c’est trop tard. Elle serait donc utile si elle était faite avant même d’envoyer l’article aux reviewers. C’est aussi l’avantage des preprints, qui permettent la détection plus en amont. Mais la solution devrait être plus globale : arrêter de pousser à ce point les chercheurs à publier.
Categories
Actualité

A qui profite le CIR ?


Quand on parle de niche
Un rapport de France Stratégie pointe les limites de cette disposition décriée… et pourtant intouchable.

French paradox. Les 6,6 milliards d’euros annuels du Crédit impôt recherche (CIR) versés aux entreprises sont une exception française. Représentant à lui seul 60% des budgets de l’innovation, il s’agit d’un record au sein des pays de l’OCDE, pointe ce rapport de France Stratégie. Alors que peut-on attendre pour l’équivalent de deux fois le budget du CNRS en matière de R&D privée ?

Préliminaire. Si la mesure existe depuis 1983, il y a un avant et un après 2008 pour le CIR, quand une réforme a permis de déplafonner les aides et de les calculer non plus sur l’accroissement des dépenses de R&D mais sur leur montant. Simplification ou effet d’aubaine, le budget du CIR a explosé depuis lors, ainsi que le nombre d’entreprises y ayant recours (26 000 en 2018).

Au bonheur des grands. Cinquante grandes entreprises concentrent près de la moitié des dépenses totales. Et pourtant… « l’essentiel des impacts positifs sont identifiés pour les petites et moyennes entreprises », note le rapport, qui ajoute que « les entreprises disposant du CIR ne déposent pas plus de brevets que les autres ». Et de conclure, aussi lapidaire que possible :« Le CIR desserre les contraintes financières des entreprises mais (…) ne les inciterait pas particulièrement à innover ».

Retour sur investissement. Les économistes de France Stratégie — sans préconiser sa suppression, trop risquée politiquement — privent aujourd’hui le gouvernement d’un de ses principaux arguments pour défendre le CIR en estimant que :« Le CIR n’a guère contrecarré la détérioration de l’attractivité du site France pour la localisation de la R&D des entreprises multinationales ». 

Pas touche au CIR  Si le CIR est historiquement dans le collimateur de certains chercheurs, qui y voient une gabegie et une source de fraude, il est défendu mordicus par le gouvernement et même par certains candidats à la présidentielle. La loi de finances pour 2021 a toutefois mis fin à un superbonus permettant de déduire deux fois le montant d’un investissement fait dans un laboratoire public.