Intel·ligència Artificial i Dades: Una relació simbiòtica

Explora la fascinant relació entre la Intel·ligència Artificial (IA) i les dades, i com aquesta dupla està revolucionant diversos sectors, des de la medicina fins a les finances. Descobreix com la qualitat i la disponibilitat de les dades impacten directament en l’èxit dels models d’IA, impulsant la innovació i l’eficiència. Acompanya’ns en aquest viatge per comprendre els reptes i les oportunitats que presenta aquesta simbiosi, incloent-hi casos d’èxit i de fracàs en projectes d’IA.

L’impacte de la qualitat de les dades en el rendiment de la IA

La IA, especialment en les seves branques d’aprenentatge automàtic (Machine Learning, ML) i IA Generativa, s’alimenta de dades per al seu aprenentatge i desenvolupament. Essencialment, la qualitat d’aquestes dades és el pilar fonamental que determina l’eficiència i la precisió dels models d’IA. Dades d’alta qualitat, caracteritzades per la seva precisió, completitud, consistència i rellevància, són crucials per a l’èxit de qualsevol projecte d’IA.
En canvi, dades de baixa qualitat —que poden ser imprecises, incompletes o esbiaixades— condueixen a models d’IA inexactes, poc fiables o fins i tot perjudicials.

Per il·lustrar aquest punt, imaginem un sistema d’IA dissenyat per predir el risc creditici. Si les dades utilitzades per entrenar aquest sistema contenen errors o estan incompletes, el model podria generar prediccions errònies, provocant decisions creditícies incorrectes amb conseqüències financeres negatives.

Machine Learning i IA Generativa: dependència de la qualitat de les dades

Tant el ML com la IA Generativa són altament sensibles a la qualitat de les dades. En el ML, els algoritmes aprenen patrons i relacions a partir de les dades d’entrenament per fer prediccions o prendre decisions. Si les dades d’entrenament són errònies o incompletes, el model resultant serà inexacte.
Per exemple, un model de ML entrenat per diagnosticar malalties a partir d’imatges mèdiques, si es basa en dades de baixa qualitat, podria conduir a diagnòstics incorrectes amb greus implicacions per a la salut dels pacients.

La IA Generativa, per la seva banda, utilitza dades per crear nous continguts, com imatges, text o música. La qualitat de les dades d’entrenament determina la qualitat i l’originalitat del contingut generat. Dades de baixa qualitat poden donar lloc a continguts repetitius, poc originals o fins i tot inapropiats.
Imaginem un model d’IA Generativa entrenat per escriure articles de notícies: si les dades d’entrenament són de baixa qualitat, el model podria generar articles amb informació errònia o amb un llenguatge inapropiat, perjudicant la credibilitat de la font1.

Aprofundint en l’impacte de la qualitat de les dades en diferents tipus de IA, observem el següent:

  • Aprenentatge supervisat: En aquest tipus d’aprenentatge, la qualitat de les dades etiquetades és crucial. Si les etiquetes són incorrectes o inconsistents, el model aprendrà patrons erronis, donant lloc a prediccions inexactes.
  • Aprenentatge no supervisat: La qualitat de les dades influeix en la capacitat del model per identificar patrons i agrupacions significatives. Dades sorolloses o incompletes poden dificultar la identificació de patrons rellevants.
  • Aprenentatge per reforç: La qualitat de les dades de retroalimentació és fonamental perquè el model aprengui a prendre decisions òptimes. Dades de retroalimentació errònies o incompletes poden conduir a un aprenentatge ineficient i a un rendiment deficient.

Exemples de models d’IA fallits per mala qualitat de dades

Al llarg del desenvolupament de la IA, hi ha hagut casos on la mala qualitat de les dades ha portat al fracàs de projectes ambiciosos. Aquests exemples serveixen com a recordatori de la importància crítica de la gestió de dades en el desenvolupament de la IA.

  • Biaix en la contractació d’Amazon: Amazon es va veure obligada a abandonar un algoritme de reclutament que mostrava biaix contra les dones. El sistema, entrenat amb dades històriques de l’empresa, va aprendre a afavorir els candidats masculins a causa de la predominança d’homes en rols tècnics en el passat. Aquest biaix en les dades es va reflectir en el model d’IA, perpetuant la desigualtat de gènere en el procés de contractació.1.
  • Biaix en els anuncis de Google: Un estudi va revelar que el sistema de publicitat en línia de Google mostrava anuncis de llocs de treball amb millor remuneració als homes que a les dones, perpetuant la bretxa salarial de gènere. Aquest biaix provenia de les dades utilitzades per entrenar el sistema, que reflectien les desigualtats salarials existents en el mercat laboral.1.
  • Biaix a Midjourney: En demanar a Midjourney —una eina d’IA per a la generació d’imatges— que creés imatges de persones en professions especialitzades, es va observar que les persones grans representades eren sempre homes, reforçant el biaix de gènere en l’àmbit laboral. Aquest biaix provenia de la manca de diversitat en les dades d’entrenament, que no reflectien la participació de dones grans en rols professionals.1.

Aquests casos il·lustren com les dades esbiaixades poden conduir a resultats discriminatoris, perpetuant desigualtats existents. És fonamental que els desenvolupadors d’IA siguin conscients d’aquests biaixos i prenguin mesures per mitigar-los, utilitzant dades d’entrenament diverses i representatives de la realitat.

Atacs de manipulació de dades i IA

Els atacs de manipulació de dades representen una amenaça significativa per als sistemes d’IA. Aquests atacs busquen alterar o modificar les dades per comprometre la integritat i la fiabilitat dels models d’IA.

Els atacants poden utilitzar diverses tècniques per manipular les dades, incloent-hi la injecció de dades falses, la modificació de dades existents o l’eliminació de dades crucials. Aquestes accions poden tenir un impacte devastador en els sistemes d’IA, provocant prediccions errònies, decisions incorrectes i fins i tot la inutilització del sistema.

Un exemple d’atac de manipulació de dades és la injecció de dades falses en un sistema d’IA utilitzat per a la detecció de fraus. En introduir dades falses que simulen transaccions legítimes, els atacants poden enganyar el sistema i aconseguir que les transaccions fraudulentes passin desapercebudes.

Un tipus específic d’atac de manipulació de dades és l’enverinament de dades (data poisoning), que s’adreça al procés d’entrenament dels models d’IA. En aquest tipus d’atac, els atacants introdueixen dades malicioses dins del conjunt d’entrenament amb l’objectiu de corrompre el model i afectar-ne el rendiment.

Hi ha diferents tipus d’atacs d’enverinament de dades, com ara la injecció de soroll aleatori o la introducció de dades irrellevants en el conjunt d’entrenament. Aquests atacs poden afectar la capacitat del model per generalitzar a partir de les dades i portar a prediccions inexactes o esbiaixades.

Casos d’èxit: empreses que van optimitzar els seus projectes d’IA amb dades de qualitat

Tot i els reptes, moltes empreses han reconegut la importància de la qualitat de les dades i han aconseguit optimitzar els seus projectes d’IA millorant-ne la gestió de dades.
Aquests casos d’èxit demostren el poder d’una bona gestió de dades en el desenvolupament de la IA.

  • Spotify. El gegant de l’streaming musical utilitza el model “Squad”, en què petits equips multifuncionals treballen de manera independent en diferents aspectes del producte. Cada equip té autonomia per decidir en què treballar i com fer-ho, fet que permet una major agilitat i eficiència en el desenvolupament de noves funcionalitats. Aquest model descentralitzat facilita la gestió de dades en permetre que cada equip se centri en les dades rellevants per a la seva àrea de treball.
  • Johnson & Johnson: Coneguda per la seva estructura descentralitzada, Johnson & Johnson compta amb nombroses unitats que funcionen de manera autònoma. Algunes es concentren en components específics del producte, cosa que requereix cooperació entre elles.
    Aquesta estructura permet una major especialització i una resposta més ràpida a les necessitats del mercat.
    La descentralització també millora la gestió de dades, ja que cada unitat pot gestionar directament les dades rellevants per a la seva àrea d’especialització.
  • Illinois Tool Works: Aquesta empresa descentralitzada està dividida en múltiples unitats, cadascuna amb una funció diferent. L’organització divideix encara més les unitats si comencen a superar o a quedar-se enrere de la competència.Aquesta estructura permet identificar amb precisió què funciona i què no, basant-se en els èxits i els fracassos de cada unitat.
    La gestió de dades en aquest model es basa en la recollida i anàlisi de dades de rendiment de cada unitat, fet que permet una presa de decisions més informada.

Aquests exemples mostren com una gestió de dades eficaç —que inclou la recopilació, neteja, organització i anàlisi de dades— pot millorar de manera significativa el rendiment de la IA i conduir a l’èxit dels projectes.

Fracassos per una mala gestió de dades en projectes d’IA

La mala gestió de dades pot ser un obstacle important per a l’èxit dels projectes d’IA.
La manca de dades, la baixa qualitat o la falta d’accés a la informació poden provocar el fracàs d’aquests projectes.

  • Ford Pinto: Tot i la facilitat amb què el model Pinto es podia incendiar a causa del seu disseny, Ford es va negar a retirar-lo del mercat fins que el govern dels Estats Units la va obligar a fer-ho.
    Aquest cas exemplifica una mala decisió empresarial que va prioritzar els beneficis econòmics per sobre de la seguretat dels consumidors.
    La manca d’anàlisi de dades sobre la seguretat del vehicle i la manca de transparència en la comunicació dels riscos van contribuir a aquest fracàs.2.
  • Nestlé Lactogen: Durant la dècada del 1970, Nestlé va dur a terme una agressiva campanya de màrqueting per a la seva llet en pols Lactogen en països amb escàs accés a aigua potable.
    Aquesta decisió, èticament qüestionable, va ignorar les necessitats i la salut dels consumidors.
    La manca de consideració dels factors socioeconòmics i culturals en l’estratègia de màrqueting va contribuir al fracàs.2.

Aquests casos demostren com la manca de consideració de les implicacions ètiques i socials pot conduir a conseqüències negatives.
És essencial que les empreses que desenvolupen projectes d’IA tinguin en compte no només la qualitat de les dades, sinó també l’impacte social i ètic de les seves decisions.

Bones pràctiques per a la gestió de dades en projectes d’IA

Per garantir l’èxit dels projectes d’IA, és fonamental implementar bones pràctiques de gestió de dades. Aquestes pràctiques asseguren que les dades siguin fiables, segures i útils per al desenvolupament de models d’intel·ligència artificial.

Millor pràcticaDescripció
Conèixer les dadesComprendre l’origen, la naturalesa, la qualitat i el context de les dades utilitzades en el projecte d’IA. Això inclou la identificació de possibles biaixos, l’avaluació de la completitud i la precisió de les dades, i la comprensió de com s’han recopilat i processat.
Organitzar les dadesImplementar una estructura de dades organitzada i eficient que faciliti l’accés, la gestió i l’anàlisi. Això pot incloure l’ús de bases de dades, magatzems de dades (data warehouses) o llacs de dades (data lakes), així com esquemes de metadades i catàlegs de dades.
Mantenir la integritat de les dadesAssegurar la precisió, la coherència i la fiabilitat de les dades durant tot el seu cicle de vida. Implica implementar controls de qualitat, validar dades i gestionar versions per garantir-ne la consistència.
Garantir la privacitat i la seguretat de les dadesProtegir les dades contra l’accés no autoritzat i l’ús indegut. Inclou mesures com el xifratge, el control d’accés, l’anonimització de dades i el compliment de les normatives de privacitat (com el RGPD).
Obtener la aceptación de la empresaInvolucrar a les parts interessades en el procés de gestió de dades. Això inclou la comunicació clara de les polítiques de dades, l’obtenció de l’aprovació de les parts interessades per als projectes de IA i la gestió de les expectatives de les parts interessades respecte a l’ús de les dades.
Obtenir l’acceptació de l’empresaDefinir objectius clars i mesurables per a la gestió de dades i el rendiment de la IA. Això inclou l’establiment d’indicadors clau de rendiment (KPI) per a la qualitat de les dades, l’eficiència del model de IA i l’impacte empresarial del projecte de IA.

Eines i tecnologies per millorar la qualitat de les dades

Existeixen nombroses eines i tecnologies que poden ajudar a millorar la qualitat de les dades per a projectes d’IA. Aquestes eines cobreixen tot el cicle de vida de la dada: des de la seva descoberta fins a la seva anàlisi i seguretat

  • Eines de descobriment de dades: Permeten identificar i catalogar les dades disponibles. Aquestes eines ajuden les empreses a obtenir una visió completa dels seus actius de dades, la qual cosa facilita la identificació de dades rellevants per als projectes de IA.
  • Eines de neteja de dades: Ajuden a identificar i corregir errors en les dades. Aquestes eines poden automatitzar tasques com la detecció de valors atípics, la correcció de dades inconsistents i l’eliminació de duplicats.
  • Eines d’enriquiment de dades: Permeten afegir informació addicional a les dades existents. Aquestes eines poden utilitzar-se per a agregar dades de fonts externes, com a dades demogràfiques o informació geogràfica, per a millorar la qualitat i la utilitat de les dades per a la IA.
  • Eines d’anàlisis de dades: Faciliten l’exploració i l’anàlisi de les dades. Aquestes eines permeten als científics de dades visualitzar dades, identificar patrons i obtenir informació que pot utilitzar-se per a millorar la qualitat de les dades i el rendiment de la IA.
  • Plataformes de gestió de dades: Proporcionen un entorn centralitzat per a la gestió de dades. Aquestes plataformes ofereixen una gamma de funcionalitats, com la integració de dades, la qualitat de dades, la governança de dades i la seguretat de dades, per a ajudar les empreses a gestionar les seves dades de manera eficaç.

Exemples específics d’eines que poden utilitzar-se per a millorar la qualitat de les dades per a la IA inclouen:

  • Nessus: Una eina d’escaneig de vulnerabilitats que pot ajudar a identificar i corregir vulnerabilitats de seguretat en els sistemes de dades.
  • QualysGuard: Una plataforma de gestió de vulnerabilitats basada en el núvol que ofereix una gamma de funcionalitats per a l’avaluació de riscos, la detecció de vulnerabilitats i la gestió de pegats.
  • OpenVAS: Un escàner de vulnerabilitats de codi obert que pot utilitzar-se per a detectar i avaluar vulnerabilitats de seguretat en sistemes i aplicacions.

Data availability and its impact on AI

La disponibilitat de dades es refereix a la facilitat amb la qual es pot accedir a les dades i utilitzar-los per a projectes de IA. Una major disponibilitat de dades significa que els models de IA tenen accés a una gamma més àmplia d’informació, la qual cosa pot millorar la seva precisió i rendiment.

Els llacs de dades són un exemple de tecnologia que facilita l’emmagatzematge i l’anàlisi de grans quantitats de dades, millorant la disponibilitat de dades per a les aplicacions de IA. Els llacs de dades permeten a les empreses emmagatzemar dades en el seu format original, sense necessitat d’estructurar-los prèviament, la qual cosa facilita la ingesta de dades de diverses fonts.

La disponibilitat de dades també es veu afectada per factors com la infraestructura de dades, les polítiques d’accés a dades i les eines de gestió de dades. Les empreses que busquen millorar la disponibilitat de dades han d’invertir en una infraestructura de dades sòlida, implementar polítiques d’accés a dades clares i utilitzar eines de gestió de dades que facilitin l’accés i l’ús de les dades.

Data fabric: Weaving a unified data landscape

Data Fabric és un enfocament de gestió de dades que busca crear una vista unificada de les dades d’una organització. Això s’aconsegueix mitjançant la integració de dades de diverses fonts, la creació d’un catàleg de dades centralitzat i l’aplicació de polítiques de governança de dades.

Data Fabric utilitza una combinació de tecnologies, com la virtualització de dades, la integració de dades i la gestió de metadades, per a crear una capa d’abstracció sobre les sitges de dades. Això permet als usuaris accedir a les dades de manera coherent, independentment d’on s’emmagatzemin o com s’estructurin.

L’arquitectura de Data Fabric es compon de diversos components clau, com a connectors de dades, un catàleg de dades, un motor de polítiques i un motor d’anàlisi. Aquests components treballen junts per a proporcionar una vista unificada de les dades, la qual cosa facilita l’accés, la gestió i l’anàlisi de les dades.

Data Mesh: A decentralized approach to data management

Data Mesh és un paradigma d’arquitectura de dades que promou la descentralització de la propietat i la gestió de dades. En lloc de centralitzar les dades en un únic magatzem de dades o llac de dades, Data Mesh distribueix la propietat de les dades als dominis empresarials que millor els coneixen.

Cada domini empresarial és responsable de la gestió de les seves pròpies dades, incloent-hi la qualitat de les dades, la seguretat de les dades i l’accés a les dades. Els dominis empresarials també són responsables de la creació de productes de dades, que són conjunts de dades que es posen a la disposició d’altres dominis i usuaris dins de l’organització.

Data Mesh es basa en quatre principis clau:

  • Arquitectura orientada al domini: Les dades s’organitzen entorn de dominis empresarials, la qual cosa permet una gestió de dades més àgil i eficient.
  • Dades com a producte: Els dominis empresarials tracten les dades com un producte, cosa que significa que són responsables de la qualitat, la seguretat i la disponibilitat de les dades.
  • Infraestructura de dades d’autoservei: Els dominis empresarials tenen accés a una infraestructura de dades d’autoservei que els permet gestionar les seves dades de manera independent.
  • Governança de dades federada: La governança de dades es distribueix entre els dominis empresarials, la qual cosa permet una major flexibilitat i adaptabilitat.


Mesures de ciberseguretat per a dades d’IA

La seguretat de les dades és crucial per a l’èxit dels projectes de IA. Les dades utilitzades per a entrenar i operar els models de IA han d’estar protegits contra l’accés no autoritzat, la manipulació i la pèrdua.

Les empreses han d’implementar una sèrie de mesures de ciberseguretat per a protegir les dades de la IA, incloent:

  • Autenticació sòlida: Implementar mesures d’autenticació sòlides, com l’autenticació multifactor, per a evitar l’accés no autoritzat als sistemes de dades.
  • Actualitzacions de programari: Mantenir el programari i els sistemes actualitzats amb els últims pegats de seguretat per a protegir contra vulnerabilitats conegudes.
  • Capacitació dels empleats: Capacitar als empleats sobre les millors pràctiques de ciberseguretat i la conscienciació sobre el phishing per a evitar atacs d’enginyeria social.
  • Tallafocs: Implementar tallafocs per a protegir les xarxes i els sistemes de dades de l’accés no autoritzat.
  • Xifratge de dades: Xifrar les dades confidencials, tant en repòs com en trànsit, per a protegir-los contra l’accés no autoritzat.
  • Còpies de seguretat de dades: Realitzar còpies de seguretat periòdiques de les dades per a garantir la recuperació en cas de pèrdua o mal de dades.

Integritat de les dades en IA

La integritat de les dades es refereix a la precisió, la coherència i la fiabilitat de les dades. És essencial per a l’èxit dels projectes de IA, ja que els models de IA es basen en dades precises i fiables per a aprendre i prendre decisions.

La integritat de les dades es pot veure afectada per una sèrie de factors, com a errors humans, errors del sistema i atacs maliciosos. Les empreses han d’implementar mesures per a garantir la integritat de les dades, com la validació de dades, la neteja de dades i el control de versions de dades.

La integritat de les dades també està estretament relacionada amb la seguretat de les dades. Les mesures de seguretat, com el control d’accés i el xifratge, ajuden a protegir la integritat de les dades en evitar l’accés no autoritzat i la manipulació de dades.

Ethical implications of poor data quality in AI

La mala qualitat de les dades pot tenir implicacions ètiques significatives en les aplicacions de IA. Les dades esbiaixades o inexactes poden portar a resultats discriminatoris, perpetuar desigualtats existents i erosionar la confiança en la IA.

Les empreses que desenvolupen projectes de IA han de considerar acuradament les implicacions ètiques de la qualitat de les dades. Han de prendre mesures per a mitigar els biaixos en les dades, garantir la privacitat de les dades i utilitzar la IA de manera responsable i ètica.

La governança de dades juga un paper crucial en la mitigació dels riscos ètics de la IA. Les pràctiques sòlides de governança de dades, com la definició de polítiques de dades clares, l’assignació de rols i responsabilitats i la implementació de mecanismes de supervisió, poden ajudar a garantir que la IA s’utilitzi de manera ètica i responsable.

The rise of data-centric AI

En els últims anys, hi ha hagut un canvi cap al desenvolupament de IA centrat en les dades. Aquest enfocament se centra en millorar la qualitat de les dades en lloc de simplement optimitzar els models de IA.

El desenvolupament de IA centrat en les dades reconeix que la qualitat de les dades és el factor més important per a l’èxit dels projectes de IA. En millorar la qualitat de les dades, les empreses poden millorar la precisió, la fiabilitat i l’equitat dels sistemes de IA.

Aquest enfocament implica una sèrie de pràctiques, com l’enginyeria de característiques, la neteja de dades, l’augment de dades i la validació de dades. També implica un canvi cultural dins de les organitzacions, on la qualitat de les dades es converteix en una prioritat per a tots els involucrats en el desenvolupament de la IA.

Conclusió

La calidad y la disponibilidad de los datos son cruciales para el éxito de los proyectos de IA. Los datos de alta calidad permiten a los modelos de IA aprender de forma eficaz, lo que lleva a un mejor rendimiento y a resultados más precisos. La mala gestión de datos, por otro lado, puede llevar al fracaso de los proyectos de IA, a consecuencias negativas e incluso a la perpetuación de sesgos existentes.

Las empresas que buscan aprovechar el poder de la IA deben priorizar la gestión de datos. Implementar mejores prácticas, utilizar las herramientas adecuadas y considerar las implicaciones éticas de la IA son factores clave para el éxito. Al comprender y abordar los desafíos de la gestión de datos, las empresas pueden desbloquear todo el potencial de la IA y obtener una ventaja competitiva en el panorama empresarial actual.

En el futuro, la importancia de la calidad y la disponibilidad de los datos para la IA solo aumentará. A medida que la IA se vuelve más sofisticada y se utiliza en una gama más amplia de aplicaciones, la necesidad de datos de alta calidad será aún mayor. Las empresas que inviertan en la gestión de datos estarán mejor posicionadas para aprovechar el poder de la IA y liderar la innovación en sus respectivos sectores.


Obres citades

1. Exemples de biaixos de IA | IBM, data d’accés: febrer 12, 2025, https://www.ibm.com/es-es/think/topics/shedding-light-on-ai-bias-with-real-world-examples

2. Com prendre bones decisions (a prova de biaixos) | IESE Insight, data d’accés: febrer 12, 2025, https://www.iese.edu/es/insight/articulos/tomar-buenas-decisiones/

Leave a Comment

L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *

últimas novedades

Ciberseguretat proactiva: com passar de la reacció a la prevenció

Pasa de reaccionar a prevenir: del SOC basado en SIEM al MDR con XDR que detecta y responde 24x7, reduce tiempos y corta

Zero Trust en infraestructures crítiques: Per què el model de confiança zero és clau per a la ciberseguretat OT i industrial

En la actualidad, las infraestructuras críticas enfrentan un panorama de amenazas cibernéticas cada vez más sofistica