Déploiement réussi d’ORRC 2 sur 15 sites de presse

publié le 21 juillet 2022

La nouvelle version de l’outil de régulation des robots de crawling ORRC 2 est déployée depuis le début d’année et désormais mise en place auprès de différents sites d’éditeurs de la presse quotidienne nationale, régionale, magazine ou professionnelle (dont Le Monde, Le Figaro, Le Parisien, L’Équipe, Le Point, Challenges, L’AGEFI, Boursier, L’Usine Nouvelle, LSA, Le Nouvel Économiste…). Plusieurs sites sont également en cours d’intégration.

En savoir plus : Déploiement réussi d’ORRC 2 sur 15 sites de presse >

border="0" alt="" />UNE STRATÉGIE DE RÉGULATION DES CRAWLERS

ORRC 2 a pour objectif d’identifier le trafic des robots sur les sites des éditeurs de presse, de suivre et d’analyser leur activité et de recueillir les informations relatives aux organisations actionnant ces robots. L’ensemble de ces données va permettre de contacter et de contractualiser avec les crawlers afin d’autoriser les actes de reproductions et la mise à disposition de contenus protégés ou, à défaut, de bloquer leur accès aux sites de presse.
Ce nouveau dispositif, plus léger, a en effet permis de s’adresser comme prévu à des sites de presse plus importants, dont les infrastructures techniques n’étaient pas compatibles avec une installation qui nécessitait une dérivation du flux des sites de presse. L’éditeur doit à présent simplement programmer l’envoi de ses logs qui sont analysés puis restitués sous forme de statistiques et de datas qui lui sont accessibles via son tableau de bord.

UNE CARTOGRAPHIE DES ROBOTS ET DE LEURS UTILISATIONS DES CONTENUS PROTÉGÉS DES SITES DE PRESSE

Le premier bénéfice d’ORRC est bien l’identification et la cartographie des crawlers réalisant des prestations commerciales à partir des contenus des sites de presse. 

 
Ce marché des crawlers B2B compte en effet de très nombreux acteurs de tailles différentes, dont les activités vont de la réalisation de panoramas de presse sous forme de liens, à la veille stratégique, e-réputation à la fouille de données pour des applications d’intelligence artificielle par exemple. Nous avons également identifié une catégorie d’intermédiaires, ou “brokers” qui crawlent le web et revendent les contenus sous forme de Xml enrichis et de liens url aux prestataires B2B. Enfin, nombre de ces acteurs sont internationaux, ce qui rendrait leur identification plus difficile sans le recours à ORRC.

UNE COORDINATION DES ACTIONS DE BLOCAGE

Le second intérêt, au-delà de la mutualisation des informations au bénéfice de la communauté des éditeurs, est la coordination des actions de blocage des robots qui ne respecteraient pas le droit d’auteur. Le CFC anime un groupe de suivi des éditeurs utilisant le service ORRC et formule des recommandations envers les cibles identifiées. Le blocage des robots est réalisé par les éditeurs à l’aide de leur propre firewall.

17 crawlers français et étrangers ont signé la licence encadrant les prestations de veille web sous forme de liens ou analyses, ce qui représente plus de 700 clients. Des négociations sont engagées avec de nouveaux acteurs à la suite des actions mises en place avec ORRC. Il s’agit d’assurer une juste valorisation des contenus de presse web et de générer de nouveaux revenus pour les éditeurs. La prochaine étape sera de compléter les autorisations notamment au titre des droits voisins, dont les crawlers sont des redevables conformément à la loi.