28 C
Marrakech
samedi 28 juin 2025

Best Selling BLOG and MAGAZINE

Thème of All Time

Experience the change!

Publicité gauche
Publicité gauche
Accueil A La Une La bouée de sauvetage de l’intelligence artificielle. Comment les entreprises technologiques font-elles...

La bouée de sauvetage de l’intelligence artificielle. Comment les entreprises technologiques font-elles face au dilemme de l’expiration des données ?

0
64

Ces dernières années, les données sont devenues une ressource vitale pour la formation des modèles d’IA, et le problème de la pénurie de données est apparu comme un obstacle majeur au développement de ces technologies. Fin 2021, OpenAI a été confronté à un problème pour obtenir suffisamment de textes en anglais pour entraîner ses systèmes d’IA, ce qui l’a incité à innover avec des solutions non conventionnelles.

Stratégies de recherche de données

  1. Outil Whisper d’OpenAI :
    • Pour pallier le manque de données, OpenAI a développé un outil appelé Whisper qui transcrit les sons des vidéos YouTube, fournissant de nouveaux scripts pouvant être utilisés pour entraîner des modèles d’IA comme GPT-4.
    • Cependant, cette approche a soulevé des questions quant à la violation des politiques de YouTube interdisant l’utilisation de vidéos dans d’autres applications.
  2. Contourner les politiques et les lois :
    • De nombreuses grandes entreprises technologiques telles que Google et Meta ont été confrontées à des défis similaires. Par exemple, Google a exploité le contenu vidéo de YouTube pour entraîner ses modèles, ce qui peut violer les droits d’auteur.
    • Chez Meta, la collecte de données protégées par le droit d’auteur sur Internet a été envisagée, ce qui soulève des problèmes juridiques, car ils pourraient faire face à des poursuites judiciaires pour de telles pratiques.

L’importance des données pour l’intelligence artificielle

  • Taille des données :
    • Le développement de modèles d’IA puissants nécessite une énorme quantité de données. Par exemple, GBT Chat a été formé sur jusqu’à 3 000 milliards de mots, soit deux fois le nombre de mots stockés dans la bibliothèque Bodley de l’Université d’Oxford.
    • Des études telles que celle de Jared Kaplan confirment que l’augmentation de la quantité de données stockées entraîne une amélioration des performances des grands modèles de langage.
  • Qualité des données :
    • Les données de haute qualité, telles que les livres et articles soigneusement édités, ont plus de valeur. Il aide les modèles à identifier avec précision les modèles et à être plus efficaces dans la production de texte et de contenu qui ressemblent à ce qu’un humain produirait.

Défis futurs

  • Disponibilité des données :
    • À mesure que les modèles deviennent plus sophistiqués et complexes, il peut devenir plus difficile de trouver de nouvelles données valides. Les entreprises doivent rechercher de nouvelles sources et développer des moyens alternatifs de collecter des données sans violer les droits ou les politiques.
  • Equilibre entre innovation et conformité :
    • Les entreprises doivent trouver un équilibre entre l’innovation et l’utilisation des données dans le respect des lois et réglementations. Cela peut nécessiter des négociations avec les éditeurs et les professionnels du droit, ainsi que l’utilisation de technologies telles que la personnalisation intelligente des données pour garantir la conformité légale.
poup

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici