Cali, marzo 20 de 2026. Actualizado: viernes, marzo 20, 2026 22:40

Google Research publica WAXAL, una colección de audio y transcripciones bajo licencia abierta (CC‑BY‑4.0) que busca reducir la brecha de voz para más de 100 millones de hablantes

WAXAL: el nuevo conjunto de datos abiertos de Google para voz en 27 lenguas de África subsahariana

WAXAL: el nuevo conjunto de datos abiertos de Google para voz en 27 lenguas de África subsahariana
lunes 16 de marzo, 2026

WAXAL es un conjunto de datos abierto presentado por Google Research el 6 de marzo de 2026 que reúne grabaciones de voz y transcripciones en 27 lenguas de África subsahariana.

El objetivo declarado por sus autores es facilitar la creación de tecnologías de reconocimiento de voz (ASR) y de síntesis de voz (TTS) más representativas de la diversidad lingüística del continente.

El proyecto, iniciado en 2021, reúne trabajo colaborativo con universidades y organizaciones africanas y se publica bajo una licencia permisiva (Creative Commons CC‑BY‑4.0).

Qué contiene WAXAL y cómo se recolectó

WAXAL agrupa dos colecciones principales orientadas a distintos usos:

  • WAXAL‑ASR: alrededor de 1.846 horas de audio transcrito con habla natural y espontánea. En lugar de leer textos, los participantes describieron imágenes y otros estímulos visuales (más de 50 temas), una técnica llamada “image‑prompted elicitation” que busca capturar variaciones reales del habla —como entonación, tono y code‑switching— típicas del uso cotidiano.
  • WAXAL‑TTS: más de 565 horas de grabaciones de alta fidelidad, pensadas para entrenar voces sintéticas naturales. Las grabaciones fueron el resultado de un trabajo comunitario: parejas de participantes redactaron guiones de entre 10.000 y 20.000 palabras, alternando roles de lector y grabador. Para mejorar la calidad acústica, algunos equipos financiaron cajas de estudio caseras; luego se segmentaron y revisaron los audios para asegurar su correspondencia con los textos.

Por qué importa para el público

El reconocimiento automático de voz (ASR) transforma audio en texto —por ejemplo, al dictar un mensaje—; la síntesis de voz (TTS) hace lo contrario, generando voz artificial a partir de texto —como la voz de un asistente virtual.

Hasta ahora, la mayoría de estas tecnologías funciona bien principalmente en idiomas con grandes cantidades de datos (inglés, español, etc.), dejando afuera a cientos de millones de hablantes de lenguas con menos recursos.

WAXAL busca abordar esa escasez de datos ofreciendo materiales que investigadores y desarrolladores pueden usar para crear servicios más inclusivos: asistentes, subtitulado automático, accesibilidad para personas con discapacidad, y herramientas educativas en lenguas locales.

Colaboración local y gobernanza de los datos

Un aspecto central del proyecto fue que la recolección la lideraron organizaciones académicas y comunitarias africanas, con orientación técnica de Google Research.

Entre las instituciones participantes están Makerere University, University of Ghana, Digital Umuganda (en asociación con Addis Ababa University), el African Institute for Mathematical Sciences Senegal, Media Trust y Loud n Clear Communications Ltd.

Según la nota oficial, los socios mantienen la propiedad de los datos recolectados y acordaron publicarlos abiertamente para beneficio de la comunidad investigadora regional.

Investigación y trabajos derivados

WAXAL se presenta además como catalizador de investigaciones ya publicadas y proyectos derivados, citando, entre otros:

  • Un “cookbook” para la recolección comunitaria de habla con discapacidad que derivó en un dataset abierto para hablantes de Akan con condiciones como parálisis cerebral o tartamudeo.
  • Un estudio que construyó un corpus de 5.000 horas para cinco lenguas de Ghana mediante una metodología de micro‑crowdsourcing controlado.
  • Un benchmark que evaluó cuatro modelos de vanguardia (Whisper, XLS‑R, MMS y W2v‑BERT) en 13 lenguas africanas, analizando cómo mejora el rendimiento al aumentar los datos de entrenamiento.
  • Una revisión sistemática que catalogó 74 datasets en 111 lenguas africanas y subrayó la necesidad de corpora conversacionales multi‑dominio y métricas sensibles a lenguas tonales y morfológicamente ricas (como el Character Error Rate).

Limitaciones y alcance declarado

La comunicación de Google Research presenta WAXAL como un primer hito y anuncia la intención de ampliar el corpus con más lenguas en el futuro. La nota se atiene a resultados de recolección y a trabajos académicos asociados; no se hacen afirmaciones sobre despliegues comerciales concretos ni sobre mejoras de rendimiento fuera de los estudios citados.

Nota de Transparencia

Esta nota fue generada 100% con IA. La fuente fue aprobada por Diario Occidente y el contenido final fue revisado por un miembro del equipo de redacción.

WAXAL: el nuevo conjunto de datos abiertos de Google para voz en 27 lenguas de África subsahariana

🔊 El Resumen de Noticias sobre Inteligencia Artificial e Innovación Tecnológica, aquí 👇🏻

WAXAL: el nuevo conjunto de datos abiertos de Google para voz en 27 lenguas de África subsahariana

Curaduría editorial

La curaduría y revisión editorial de estas notas está a cargo de Rosa María Agudelo Ayerbe, comunicadora social y periodista, con maestría en Transformación Digital y especialización en Inteligencia Artificial.

Desde su rol como líder del equipo de innovación y transformación digital del Diario Occidente, y a través de la unidad estratégica DO Tech, realiza un seguimiento permanente a las principales novedades en tecnología e inteligencia artificial a nivel global.

Estas notas se apoyan en un agente de investigación basado en inteligencia artificial, diseñado para monitorear semanalmente avances, lanzamientos y debates clave del sector.

El contenido es posteriormente leído, analizado, contextualizado y validado editorialmente antes de su publicación.

Este proceso forma parte del mecanismo de actualización continua que permite interpretar los desarrollos tecnológicos desde una mirada periodística, crítica y comprensible para audiencias no especializadas.


WAXAL: el nuevo conjunto de datos abiertos de Google para voz en 27 lenguas de África subsahariana

Comments

ads_top
Powered by Sindyk Content
Arriba