Modely řeči mají největší potíže, když mluvčí pocházejí z různorodého jazykového prostředí — a nikde to není dražší než navigace a nouzové vysílání. Novinka od týmu Together Research Frontier Agents: SF Streets, benchmarkové testování rozpoznávání jmenovaných entit napříč 15 nejmodernějšími modely. → 39% průměrná chybovost názvů ulic → Neanglicky mluvící: o 18 % nižší přesnost → Špatné přepisy vás dostanou 2,4 míle mimo cíl Řešení: cross-lingvální styl přenosu. Méně než 1 000 syntetických vzorků → relativní zlepšení oproti Whisper-Large. Veřejné zveřejnění datových sad SF Streets a US Streets. Přečtěte si více a najděte článek (odkazy níže)
Blog: arXiv:
100