語音模型在講者來自多元語言背景時最為困難——而在導航和緊急調度方面,這種困難的代價更高。 來自 Together Research Frontier Agents 團隊的新成果:SF Streets,一個基準壓力測試,針對 15 種最先進的模型進行命名實體識別。 → 街道名稱的平均錯誤率為 39% → 非英語使用者:準確率低 18% → 錯誤轉錄使你偏離目標 2.4 英里 解決方案:跨語言風格轉換。少於 1,000 個合成樣本 → Whisper-Large 的相對改善達 60%。 SF Streets 和 US Streets 數據集將公開發布。 閱讀更多並查找論文(鏈接如下)
部落格: arXiv:
90