Les géants de la technologie repoussent les limites pour nourrir l'appétit des données de l'IA

By James Kinoti
Mise à jour : 6 avril 2024 à 12h39 UTC

3 minutes de lecture

507313

Contenu

1. L'initiative Whisper d'OpenAI : Exploiter les conversations YouTube

2. La crise des données : adopter des approches non conventionnelles

3. L’impératif des ensembles de données massifs

Lien de partage:

Dans cet article :

Les géants de la technologie recourent à des méthodes controversées pour collecter des données sur l’IA.
OpenAI transcrit des vidéos YouTube, et Google et Meta envisagent d'acheter du contenu protégé par le droit d'auteur.
Des débats juridiques et éthiques surgissent à propos de l’utilisation par l’IA de vastes ensembles de données.

Qu'il s'agisse du travail d' OpenAI , de Google et de Meta, l'IA finançant le secteur industriel, qui comprend divers moyens tels que la collecte ou l'accumulation d'énormes volumes de données numériques de différentes manières créatives mais controversées, il est clair que les capacités et capacités d'automatisation augmentent. Notamment, les efforts impliquant des actions telles que la prise des mesures décrites ci-dessus (c'est-à-dire la prise en compte des limites légales et des politiques d'entreprise) sont équivalents à la quantité considérable de données utilisées pour entraîner les systèmes d'IA.

L'initiative Whisper d'OpenAI : Exploiter les conversations YouTube

Notre histoire Whisper a commencé l’année dernière. Il existe une pénurie écrasante de textes anglais de première qualité, ce qui entraîne des retards dans l'enseignement. Whisper était la prochaine étape de Google. Il comprenait l'océan de dialogues de YouTube et a été développé sous forme de texte, une application de synthèse vocale. L'outil alimenté par l'IA lui-même, composé de plus d'un million d'heures de vidéos YouTube auditées par l'IA pour générer de nouveaux textes (essentiellement, une nouvelle conversation), a été utilisé pour former des modèles d'IA produits à partir de l'état de l'art. jusqu'à GPT-4, la dernière version du chatbot ChatGPT.

Même si certains employés affirmaient que les images Microsoft d'OpenAI plagiaient YouTube à tous les niveaux, l'éthique du plagiat restait discutable ; en outre, certains travailleurs ont admis qu'il serait impossible de s'aligner précisément sur les intentions de YouTube. De même, l’acquisition d’objections au traitement algorithmique des vidéos pour entracle contenu textuel destiné à alimenter les modèles d’IA aurait pu être considérée comme une menace pour les droits d’auteur des créateurs de vidéos, provoquant l’indignation.

Voir aussi Donald Trump Dinner Hype soulève Melania malgré des ventes de jeton de 18 millions de dollars en cours

Meta, la société mère de Facebook et Instagram, était également préoccupée par l'utilisation d'éléments protégés par le droit d'auteur de maisons d'édition comme Simon & Schuster, entre autres. Dans le même temps, il a également discuté de l'acquisition du contenu Web général, potentiellement susceptible d'être pris en flagrant délit de violation du droit d'auteur.

La crise des données : adopter des approches non conventionnelles

Une collecte de données pleine de concurrence permet de constater la position charnière des données et de lesdentdans le développement de la technologie de l’IA. Le langage intégré à une IA commande de plus en plus d'ensembles de données de formation, y compris ceux du Commonwealth, qui sont aujourd'hui manipulés jusqu'à Wikipédia et Reddit en dehors de ces sources. Pour les entreprises technologiques, en particulier celles qui ont des difficultés à accéder à des sources de données très courantes telles que les magasins de données traditionnels, la création de modèles basés sur l'IA peut être une solution alternative qui peut être suffisamment souhaitable dans de tels cas.

Les entreprises technologiques indiquent que la collecte de données est nécessaire à la formation en IA alors que le même processus est légalement remis en question devant les tribunaux. Pour leur défense, OpenAI et Microsoft ont obtenu gain de cause contre eux contre une allégation d’utilisation illégale de matériel protégé par le droit d’auteur. Ils ont néanmoins déclaré que leurs actions relevaient du principe juridique de l’usage équitable. Ces dernières années, le nombre de demandes soumises au Bureau américain du droit d'auteur par les titulaires de droits d'auteur a dépassé les 10 000, ce qui montre clairement que la loi sur le droit d'auteur à l'ère de l'IA est unique et toute nouvelle. Par conséquent, les principaux acteurs sont toujours confrontés aux dangers liés à la contrefaçon de nombreuses œuvres sous prétexte qu’il n’existe aucune finalité sous licence pour les modèles utilisant l’IA sur cette base.

Voir aussi Gold et Bitcoin se rassemblent, est-ce le dollar en difficulté?

L’impératif des ensembles de données massifs

Dans l'ensemble, le travail de Kaipan, De Jared, scientifique à l'échelle mondiale, a été involontairement épique dans le développement de l'IA. Le contenu basé sur les données est l'un des composants de l'IA nécessaires au processus de formation, mais il ne peut pas fonctionner correctement sans des modèles bien formés et fonctionnant efficacement. Avec l’essor de la technologie de l’intelligence artificielle, la demande de données pour réussir sur le marché augmente à un rythme élevé, laissant les entreprises confrontées à des questions liées au droit, à l’éthique et à la confidentialité. Par conséquent, les algorithmes d’intelligence artificielle doivent utiliser ces ensembles de données pour réussir sur le marché.

Le comportement de collecte de données des V.IP est défiguré par de l'IA ; le serment méthodologique typique est en train de devenir grossier. Que ce soit à travers l'une de leurs conférences sur YouTube ou la création de données synthétiques génératives, ces entreprises sont des leaders dont la mission est de découvrir quels sont réellement les problèmes de droit, d'éthique et de confidentialité.

Ils pourraient devenir une plaisanterie en mer plus tard. En raison de l’apparition d’énormes ensembles de données nécessaires au pilotage du processus d’innovation, les dirigeants de la société sont tenus de participer activement à un dialogue constructif pour développer des règles et des normes dans lesquelles les efforts d’innovation sont équilibrés avec les principes éthiques des droits de propriété intellectuelle et de la vie privée.

Histoire originale de : https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html

Cryptopolitan Academy: à venir bientôt - une nouvelle façon de gagner un revenu passif avec DeFi en 2025. En savoir plus

Lien de partage:

Lire la clause de non-responsabilité

Clause de non-responsabilité. Les informations fournies ne sont pas des conseils commerciaux. Cryptopolitan.com décline toute responsabilité pour les investissements effectués sur la base des informations fournies sur cette page. Nous tron vivement dent recherches indépendantes et/ou de consulter un professionnel qualifié avant de prendre toute décision d'investissement.

Les plus lus

Restez au courant de l'actualité crypto, recevez des mises à jour quotidiennes dans votre boîte de réception

Choix de l'éditeur

Chargement des articles Choix de l'éditeur...

Les géants de la technologie repoussent les limites pour nourrir l'appétit des données de l'IA

Contenu

Dans cet article :

L'initiative Whisper d'OpenAI : Exploiter les conversations YouTube

La crise des données : adopter des approches non conventionnelles

L’impératif des ensembles de données massifs

Lien de partage:

Les plus lus

Restez au courant de l'actualité crypto, recevez des mises à jour quotidiennes dans votre boîte de réception

Choix de l'éditeur

Inscrivez-vous et restez au top

Les marchés se déplacent rapidement.

Nous nous déplaçons plus vite.

Entrez. Obtenez les faits.
Avancez.

Les géants de la technologie repoussent les limites pour nourrir l'appétit des données de l'IA

Contenu

Dans cet article :

L'initiative Whisper d'OpenAI : Exploiter les conversations YouTube

La crise des données : adopter des approches non conventionnelles

L’impératif des ensembles de données massifs

Lien de partage:

Les plus lus

Restez au courant de l'actualité crypto, recevez des mises à jour quotidiennes dans votre boîte de réception

Choix de l'éditeur

Inscrivez-vous et restez au top

Suivez-nous

- la newsletter crypto qui vous maintient en tête -

Les marchés se déplacent rapidement.

Nous nous déplaçons plus vite.

Entrez. Obtenez les faits. Avancez.

Entrez. Obtenez les faits.
Avancez.