L’Estadística en temps d’incertesa, de la COVID-19, el Big Data i la Intel·ligència Artificial

20 maig, 2020 estadistica big data i intel·ligencia artificial

En moments de crisi econòmica, com l’actual, és molt important reduir la incertesa per tal crear marcs de confiança que ajudin a la recuperació econòmica. La font principal d’incertesa en aquests moments és el comportament del SARS-CoV-2 i l’evolució de la COVID-19. Són moltes les àrees de coneixement que hi estan treballant intensament per conèixer millor aquest comportament i aquesta evolució. Entre elles, l’Estadística.

Un dels pitjors enemics que té l’economia en aquests moments, per mirar de sortir de la greu crisi en què ens trobem, és la incertesa. La incertesa afecta l’activitat econòmica i la presa de decisions de molt diverses maneres. Així per exemple, en situacions de gran incertesa les empreses retarden la inversió i la contractació, els costos de finançament augmenten en incrementar-se les primes de risc, i a més les llars redueixen la despesa en previsió de possibles canvis en els seus ingressos. Aquestes contraccions en les inversions i en el consum afecten directament al creixement econòmic, i molt especialment al mercat de treball.

I d’aquest clar efecte de la incertesa sobre l’economia en tenim alguns exemples molt recents. Segons el Fons Monetari Internacional (FMI), la incertesa sobre la política fiscal, reguladora i monetària dels Estats Units i de la Unió Europea va contribuir de forma clara tant en la davallada econòmica del període 2008-2009 com en les lentes recuperacions dels períodes següents. Durant aquella crisi financera la caiguda més gran trimestral del PIB a Espanya va ser del 2,6% (primer trimestre de 2009). Ara, amb la crisi del coronavirus, l’economia espanyola ha caigut el primer trimestre de 2020 el doble (un 5,2%), la caiguda més gran en gairebé un segle. Estem, per tant, davant una crisi molt gran i si aprenem de lliçons passades, haurem de tenir molt en compte que una reducció significativa de la incertesa pot ajudar de forma decidida a trobar el camí cap a una més ràpida recuperació econòmica.

Big Data i Intel·ligència artificial per a reduir la incertesa

Des del punt de vista econòmic, la incertesa fa referència a com els diferents agents econòmics, molt especialment empreses i consumidors, no tenen cap seguretat sobre les perspectives futures de l’economia. I en aquests moments, aquestes perspectives futures depenen molt clarament de l’evolució de la COVID-19 i del descobriment d’una vacuna que permeti tornar al que s’ha anat anomenant “nova normalitat”. Malgrat que s’hi està treballant molt intensament arreu del món (en aquests moments s’estan fent més de 400 assajos clínics, amb alguns resultats positius en tractaments antivirals i amb proves esperançadores en humans de possibles vacunes), encara hi ha un desconeixement molt gran sobre la malaltia i el seu comportament. Tot i que els diferents plans de desconfinament que es van dissenyant intenten reduir algunes incerteses, amb diferents mesures preventives, per mirar de crear un marc de confiança tant per a les empreses com per als consumidors, realment encara hi ha moltes incògnites que són difícils de descobrir.

Des de diferents àrees de coneixement s’està treballant molt intensament per ajudar a reduir la incertesa, amb l’elaboració d’articles científics per explicar què està passant i per provar de preveure per on poden anar les coses. Un bon exemple d’aquesta gran activitat científica és el corpus de treballs d’investigació sobre COVID-19 que manté actualitzat l’Allen Institute for Artificial Intelligence, i que ja conté al voltant de les 60.000 referències. El volum de treballs és tan elevat que el març passat l’Office of Science and Technology Policy del govern dels Estats Units va fer una crida a la comunitat científica internacional d’Intel·ligència Artificial per al desenvolupament de tècniques de processament de llenguatge natural i mineria de textos que ajudessin a “navegar” per aquest corpus i facilitessin els metges i científics donar resposta a les preguntes que la comunitat científica s’està fent sobre la COVID-19. Moltes d’aquestes preguntes estan recollides a la plataforma Kaggle, una coneguda plataforma en el món de la Ciència de dades i d’Intel·ligència Artificial.

I és que en plena era del Big Data, la Intel·ligència Artificial és una de les àrees de coneixement que més està treballant per conèixer el desenvolupament de la malaltia i per fer prediccions futures que ajudin a reduir moltes de les incerteses que tenim. I també és una de les que més bons resultats està obtenint. De fet, va ser BlueDot, una plataforma de monitoratge de salut per Intel·ligència Artificial, una de les primeres veus que va alertar sobre casos de pneumònia no identificada a la ciutat xinesa de Wuhan, a finals de desembre de 2019, setmanes abans que la mateixa Organització Mundial de la Salut (OMS) declarés l’alerta sanitària global. A més a més, el mateix sistema també va ser capaç de pronosticar de forma correcta els llocs de fora de la Xina on arribaria primer el coronavirus (Bangkok, Seül, Taipei i Tòquio).   

Font: FORBES

La manca de dades fiables

De totes maneres, en l’actual crisi del coronavirus, la Intel·ligència Artificial té dues limitacions importants per poder ser encara de més utilitat: necessita enormes quantitats de dades (Big Data) per a funcionar, i a més requereix que aquestes dades procedeixin (evidentment) de fonts d’informació fiables. Quantes persones hi ha realment amb la COVID-19? Quantes persones han tingut certament la COVID-19 i s’han recuperat? Quants morts hi ha veritablement per causa de la COVID-19? Quines dades hi ha disponibles sobre aquestes persones? Coneixem exactament la seva geolocalització? Sabem de forma veraç quins contactes directes de les persones diagnosticades han patit la malaltia i quins no? Coneixem efectivament totes les característiques individuals dels malalts per COVID-19?

Aquestes preguntes són només una mostra de la informació que es necessita conèixer, de forma fiable, per tal d’analitzar adequadament la situació en què ens trobem i intentar preveure possibles escenaris de futur. La impossibilitat de fer proves PCR massives, l’existència de diferents protocols a l’hora de comptabilitzar casos i a l’hora de registrar les morts o les dificultats per compartir, en temps real, dades de persones tot respectant la seva privacitat, són només algunes de les causes que fan que sigui molt complicat disposar de dades massives i alhora fiables. I en aquest context, la Intel·ligència Artificial no pot desplegar tot el seu potencial per mirar de reduir la percepció d’incertesa de forma efectiva. Malgrat tot, hi ha moltes iniciatives que busquen trobar una solució a aquests problemes fomentant la coordinació internacional entre experts en aquesta àrea de coneixement. D’entre aquestes iniciatives, es pot destacar el grup de treball CoronaWhy , on més de 900 voluntaris experts en Intel·ligència Artificial tenen com a objectiu, precisament, millorar la coordinació i l’anàlisi global de totes les dades disponibles i rellevants pel brot de la COVID-19, i també assegurar-se que totes les troballes arribin a qui les pugui necessitar. Però de totes maneres, no n’hi ha prou.

Davant les dificultats d’obtenir grans volums de dades fiables, hi ha una àrea de coneixement que està aportant solucions a aquest problema, i hi està fent una important contribució a l’hora d’analitzar de forma rigorosa la situació en què ens trobem. Què passa quan no tenim informació de tota la població? Què podem fer quan no es pot  accedir a tots els individus que volem estudiar? Com ens ho fèiem abans d’entrar en l’era del Big Data? La resposta a aquesta darrera pregunta és molt senzilla: buscàvem una mostra de la població que fos la més representativa possible, amb una mida suficient per tenir uns marges d’error petits, i llavors miràvem d’inferir a tota la població els resultats obtinguts per a aquesta mostra. L’àrea de coneixement que tracta aquesta metodologia quantitativa d’anàlisi és l’Estadística.    

La formació en Estadística continua sent útil i necessària

La formació en Estadística es troba en tots els nivells educatius. En l’àmbit universitari sempre hem tingut com un dels seus eixos més importants la idea de proporcionar als estudiants els coneixements necessaris per poder contrastar de forma significativa si unes determinades característiques d’una mostra es poden generalitzar o no a tota la població. En assignatures dels Estudis d’Economia i Empresa de la UOC, l’estadística descriptiva, la teoria de la probabilitat, les variables aleatòries i les seves funcions de distribució, juguen un paper central, perquè precisament donen les eines de treball necessàries per a la inferència estadística, per poder fer contrastos d’hipòtesis que permetin dir coses de tota la població quan no podem conèixer les dades de tota aquesta població.      

Potser en un futur més o menys proper aquest enfocament haurà de canviar. I aquestes assignatures s’hauran d’orientar més cap a una realitat on el que anomenem Big Data estarà ja present en tots i cadascun dels aspectes de les nostres vides. Però fins llavors, la docència que estem fent de l’Estadística a totes les universitats continua sent vàlida, adequada, útil i necessària. Sobre tot útil i necessària. I és que en temps d’incertesa, de la COVID-19, el Big Data i la Intel·ligència Artificial, l’Estadística ha demostrat que continua sent això, útil i necessària.

Com a exemple clar i de gran actualitat, podem citar l’estudi ENECovid19 de prevalença de la infecció pel coronavirus SARS-CoV-2 en la població a Espanya. En aquest estudi, desenvolupat pel Ministerio de Sanidad amb la col·laboració de l’Instituto de Salud Carlos III, les Comunitats autònomes i l’Instituto Nacional de Estadística, es pretén saber quin percentatge de tota la població ha passat la malaltia COVID-19, desenvolupant anticossos, a partir dels resultats obtinguts en una mostra representativa de 36.000 llars. L’informe corresponent a la primera ronda (de les tres de què consta l’estudi), que ha sortit aquests dies, ja aporta de forma preliminar algunes conclusions força interessants, com que la prevalença a Espanya se situa al voltat del 5% de la població. Resultats com aquests, que permeten explicar què li passa a tota la població a partir del que s’ha observat en una mostra, ajudaran, sense dubte, a comprendre millor la COVID-19, a reduir la incertesa, i per tant a estar més a prop del camí cap a la desitjada recuperació econòmica.

Sobre l'autor

Professor dels Estudis d’Economia i Empresa i director del programa de doctorat en ADE de la Universitat Oberta de Catalunya (UOC). A més, és membre del grup de recerca Digital Business (DigiBiz).

Comentaris

Deixa un comentari