FAPESP Logo

Ambiente web de suporte à transcrição fonética automática de verbetes em dicionários do Português do Brasil

Beneficiário:

Instituição-sede da pesquisa: Instituto de Biociências, Letras e Ciências Exatas (IBILCE). Universidade Estadual Paulista (UNESP). Campus de São José do Rio Preto. São José do Rio Preto, SP, Brasil
Pesquisador responsável:

Claudia Zavaglia

Área do conhecimento:Linguística, Letras e Artes - Linguística
Linha de fomento:Bolsas no Brasil - Doutorado
Processo: 11/01299-4
Vigência: 01 de setembro de 2011 - 28 de fevereiro de 2015
Bolsa(s) vinculada(s):14/00613-5 - Sistema de pronunciação de verbos: uma proposta para o Português do Brasil, BE.EP.DR
Assunto(s):

Linguística de corpus

Corpus

Linguística computacional

Resumo
Este projeto dedica-se à construção de um ambiente Web dedicado à transcrição fonética automática de verbetes em dicionários do Português do Brasil. A motivação para construir esse ambiente partiu da grande correspondência existente entre os caracteres ortográficos do alfabeto do português brasileiro e seus respectivos sons, que acreditamos contribuir para a construção de uma ferramenta computacional que faça a conversão de símbolos ortográficos para sonoros de maneira automática e satisfatória. Dessa maneira, a hipótese que norteia este projeto é a de que a partir de um conjunto de aplicações computacionais poderá ser possível converter caracteres de unidades lexicais isoladas (verbetes) em suas unidades sonoras correspondentes, com a aplicação de um conjunto fixo e objetivo de critérios de anotação, sem que haja para isso qualquer tipo de intervenção humana. A conversão entre a unidade ortográfica (verbete de entrada do sistema) e a unidade lexical transcrita foneticamente (saída do sistema) terá como base as fontes padronizadas do International Phonetic Alphabet (IPA). Quanto ao modelo de dicção que será transcrito a partir dos verbetes, este seguirá a tendencia atual de refletir um modelo de dicção o mais universal possível, geral e neutra, sem variedades linguísticas e de uso corrente. Metodologicamente, o desenvolvimento do ambiente associará a Linguística de Corpus, a Fonética e a Fonologia para a construção de um dicionario fonético de grande vocabulário, do qual serão extraídas transcrições fonéticas para o treino da ferramenta computacional. Unirá as metodologias de trabalho da Computação para a confecção do sistema proposto com os instrumentos de validação do conhecimento da Estatística (Kappa) para mensurar a qualidade do corpus transcrito. (AU)
CDi/FAPESP - Centro de Documentação e Informação da Fundação de Amparo à Pesquisa do Estado de São Paulo

R. Pio XI, 1500 - Alto da Lapa - CEP 05468-901 - São Paulo/SP - Brasil
cdi@fapesp.br - Converse com a FAPESP