Molts de nosaltres, escoltant aquesta trucada (en anglès), no notaran res estrany: és una persona que reserva una cita a la perruqueria. El problema és que hi ha d’haver alguna cosa estranya, ja que n’estem escoltant conversa en temps real entre un ésser humà i una màquina.

La revelació va sorprendre a tothom perquè, a diferència d’altres àrees (com el reconeixement de les persones), els algorismes d’intel·ligència artificial sempre han trobat grans límits en la comprensió i producció del llenguatge oral, tant que aquesta àrea es configura com el veritable repte 'intel · ligència artificial. Al cap i a la fi, trigem uns quants segons a reconèixer una trucada de telèfon real des d’una trucada realitzada amb veu gravada. O almenys, fins ara.

Al document de presentació de Google Dúplex (aquest és el nom de la tecnologia) que notarem molts reptes als quals s’han afrontat els desenvolupadors (pel que sembla, resolent-los) i que els que treballem en el camp de la comunicació verbal ho sabem bé:


  • A diferència d’una cerca a Google, la reserva de veu és molt més inexacte: conté vacil·lacions, paraules repetides diverses vegades, autocorreccions. Per tant, una de les tasques de la màquina és "netejar" el senyal i extreure el contingut de la informació
  • Les persones solen parlar ràpidament i quan són al telèfon poden tenir sorolls de fons. Una altra tasca de la màquina és, doncs, identificar i aïllar el missatge
  • El contingut pot ser ambigu: com a l'exemple proporcionat per la pàgina de Google, en anglès "Ok for 4" pot significar "Ok for 4: oo" o "Ok for 4 people". La tasca de la màquina és, per tant, identificar i desambiguar aquestes possibles situacions
  • Reconèixer els aspectes pragmàtic: de vegades, la màquina ha de respondre amb accions a peticions explícites, per exemple "Podeu esperar un minut?", "Podeu repetir?", "Podeu dir-ho lletra per lletra?"

Curiosament, el fet que, per semblar més natural, el sistema ha de ser més imprecis: la "noia" que fa la cita utilitza interjeccions, vacil·lacions i reformulacions amb l'únic propòsit de semblar més natural.

Afortunadament per a nosaltres, El dúplex haurà d’identificar-se com un robot abans d’iniciar una conversa telefònica amb nosaltres.

Resta el fet que els descobriments realitzats per superar totes les dificultats descrites anteriorment poden tenir un impacte enorme models de comprensió i producció lingüística.

Comenceu a escriure i premeu Enter per cercar

d'error: Contingut està protegit !!
Lectura compartida