Qu'il s'agisse du travail d' OpenAI , de Google et de Meta, l'IA finançant le secteur industriel, qui comprend divers moyens tels que la collecte ou l'accumulation d'énormes volumes de données numériques de différentes manières créatives mais controversées, il est clair que les capacités et capacités d'automatisation augmentent. Notamment, les efforts impliquant des actions telles que la prise des mesures décrites ci-dessus (c'est-à-dire la prise en compte des limites légales et des politiques d'entreprise) sont équivalents à la quantité considérable de données utilisées pour entraîner les systèmes d'IA.
L'initiative Whisper d'OpenAI : Exploiter les conversations YouTube
Notre histoire Whisper a commencé l’année dernière. Il existe une pénurie écrasante de textes anglais de première qualité, ce qui entraîne des retards dans l'enseignement. Whisper était la prochaine étape de Google. Il comprenait l'océan de dialogues de YouTube et a été développé sous forme de texte, une application de synthèse vocale. L'outil alimenté par l'IA lui-même, composé de plus d'un million d'heures de vidéos YouTube auditées par l'IA pour générer de nouveaux textes (essentiellement, une nouvelle conversation), a été utilisé pour former des modèles d'IA produits à partir de l'état de l'art. jusqu'à GPT-4, la dernière version du chatbot ChatGPT.
Même si certains employés affirmaient que les images Microsoft d'OpenAI plagiaient YouTube à tous les niveaux, l'éthique du plagiat restait discutable ; en outre, certains travailleurs ont admis qu'il serait impossible de s'aligner précisément sur les intentions de YouTube. De même, l’acquisition d’objections au traitement algorithmique des vidéos pour entracle contenu textuel destiné à alimenter les modèles d’IA aurait pu être considérée comme une menace pour les droits d’auteur des créateurs de vidéos, provoquant l’indignation.
Meta, la société mère de Facebook et Instagram, était également préoccupée par l'utilisation d'éléments protégés par le droit d'auteur de maisons d'édition comme Simon & Schuster, entre autres. Dans le même temps, il a également discuté de l'acquisition du contenu Web général, potentiellement susceptible d'être pris en flagrant délit de violation du droit d'auteur.
La crise des données : adopter des approches non conventionnelles
Une collecte de données pleine de concurrence permet de constater la position charnière des données et de lesdentdans le développement de la technologie de l’IA. Le langage intégré à une IA commande de plus en plus d'ensembles de données de formation, y compris ceux du Commonwealth, qui sont aujourd'hui manipulés jusqu'à Wikipédia et Reddit en dehors de ces sources. Pour les entreprises technologiques, en particulier celles qui ont des difficultés à accéder à des sources de données très courantes telles que les magasins de données traditionnels, la création de modèles basés sur l'IA peut être une solution alternative qui peut être suffisamment souhaitable dans de tels cas.
Les entreprises technologiques indiquent que la collecte de données est nécessaire à la formation en IA alors que le même processus est légalement remis en question devant les tribunaux. Pour leur défense, OpenAI et Microsoft ont obtenu gain de cause contre eux contre une allégation d’utilisation illégale de matériel protégé par le droit d’auteur. Ils ont néanmoins déclaré que leurs actions relevaient du principe juridique de l’usage équitable. Ces dernières années, le nombre de demandes soumises au Bureau américain du droit d'auteur par les titulaires de droits d'auteur a dépassé les 10 000, ce qui montre clairement que la loi sur le droit d'auteur à l'ère de l'IA est unique et toute nouvelle. Par conséquent, les principaux acteurs sont toujours confrontés aux dangers liés à la contrefaçon de nombreuses œuvres sous prétexte qu’il n’existe aucune finalité sous licence pour les modèles utilisant l’IA sur cette base.
L’impératif des ensembles de données massifs
Dans l'ensemble, le travail de Kaipan, De Jared, scientifique à l'échelle mondiale, a été involontairement épique dans le développement de l'IA. Le contenu basé sur les données est l'un des composants de l'IA nécessaires au processus de formation, mais il ne peut pas fonctionner correctement sans des modèles bien formés et fonctionnant efficacement. Avec l’essor de la technologie de l’intelligence artificielle, la demande de données pour réussir sur le marché augmente à un rythme élevé, laissant les entreprises confrontées à des questions liées au droit, à l’éthique et à la confidentialité. Par conséquent, les algorithmes d’intelligence artificielle doivent utiliser ces ensembles de données pour réussir sur le marché.
Le comportement de collecte de données des V.IP est défiguré par de l'IA ; le serment méthodologique typique est en train de devenir grossier. Que ce soit à travers l'une de leurs conférences sur YouTube ou la création de données synthétiques génératives, ces entreprises sont des leaders dont la mission est de découvrir quels sont réellement les problèmes de droit, d'éthique et de confidentialité.
Ils pourraient devenir une plaisanterie en mer plus tard. En raison de l’apparition d’énormes ensembles de données nécessaires au pilotage du processus d’innovation, les dirigeants de la société sont tenus de participer activement à un dialogue constructif pour développer des règles et des normes dans lesquelles les efforts d’innovation sont équilibrés avec les principes éthiques des droits de propriété intellectuelle et de la vie privée.
Histoire originale de : https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html
Cryptopolitan Academy: Vous voulez développer votre argent en 2025? Apprenez à le faire avec DeFi dans notre prochaine webclass. Enregistrez votre place