Modelele de vorbire întâmpină cele mai mari dificultăți atunci când vorbitorii provin din medii lingvistice diverse — și nicăieri nu este asta mai costisitor decât navigația și dispeceratul de urgență. Noutăți de la echipa Together Research Frontier Agents: SF Streets, un benchmark de testare a stresului pentru recunoașterea entităților pe 15 modele de ultimă generație. → rată medie de eroare de 39% la denumirile străzilor → Vorbitori non-engleză: cu o acuratețe cu 18% mai mică → Transcrierile greșite te duc la 2,4 mile de la țintă Soluția: transfer în stil cross-lingv. Mai puțin de 1.000 de mostre sintetice → o îmbunătățire relativă de 60% față de Whisper-Large. Seturile de date SF Streets și US Streets care sunt publicate. Citește mai multe și găsește lucrarea (linkuri mai jos)
Blog: arXiv:
83