Modelos de fala têm mais dificuldades quando falantes vêm de diversos contextos linguísticos — e isso não é mais caro do que navegação e despacho de emergência. Novidades da equipe Together Research Frontier Agents: SF Streets, um benchmark de testes de estresse que nomeou reconhecimento de entidades em 15 modelos de última geração. → taxa média de erro de 39% nos nomes das ruas → Falantes de inglês: 18% menor de precisão → Transcrições erradas te deixam 2,4 milhas fora do alvo A solução: transferência de estilo cross-lingual. Menos de 1.000 amostras sintéticas → uma melhora relativa de 60% em relação ao Whisper-Large. Conjuntos de dados de ruas de SF e US Streets sendo divulgados publicamente. Leia mais e encontre o artigo (links abaixo)
Blog: arXiv:
88