Wikcionario:Referencia/ES/Pronunciación

Introducción

Se incluye aquí una descripción general del sistema fonológico (los sonidos, la pronunciación) del español o castellano, que busca ser práctica y de fácil consulta. Hay numerosas diferencias en la realización de los sonidos según regiones, clases sociales y género sexual, entre otros factores. Sin embargo, casi todas estas diferencias ocurren dentro de un sistema mental común a todo el mundo hispánico, que permite reconocer y contrastar el significado de las palabras con varias formas de pronunciarse.

Para artículos más detallados, recomendamos la página de Wikipedia sobre fonología del español. En cuanto a variaciones regionales, puede consultarse Wikcionario:Variantes regionales del español, así como los artículos de Wikipedia sobre los diferentes dialectos, listados en: w:Categoría:Dialectos del idioma español.

Siguiendo las convenciones del AFI (Alfabeto Fonético Internacional), se indican entre barras oblicuas / / los fonemas, es decir, la clase más general o abstracta de sonidos que marcan una diferencia en el significado; y se indican entre corchetes [ ] los rasgos fonéticos, esto es, la manera un poco más concreta de pronunciar ciertos fonemas según el lugar que ocupan en el habla, o como aparecen en diversos dialectos (la palabra "dialecto" no se emplea aquí en el sentido coloquial despectivo, sino en su significado técnico de "variedad de un idioma o modo en que se emplea en determinado contexto").^[1]

Sonidos básicos del español

Vocales

Cuadro de las vocales del español.^[2]

Posición de la lengua en las vocales /o/, /u/

Posición de la lengua en las vocales /a/, /e/, /i/

El español funciona con cinco fonemas vocálicos básicos (los ejemplos de audio son aproximados):


fonema	descripción	equivalentes	ejemplos
/i/	(cerrada anterior no redondeada)	--	piso /ˈpiso/ - ji /xi/
/e/	(media anterior no redondeada)	[ e̞, ɛ̝ ]	peso /ˈpeso/ - je /xe/
/a/	(abierta central no redondeada)	[ ä ɑ̈ a̠ ɐ̞ ]	paso /ˈpaso/ - ja /xa/
/o/	(media posterior redondeada)	[ o̞, ɔ̝ ]	poso /ˈposo/ - jo /xo/
/u/	(cerrada posterior redondeada)	--	puso /ˈpuso/ - ju /xu/

La realización de estos fonemas varía mucho (genera alófonos) según el lugar que ocupen dentro de una palabra, según sean tónicos o no, y a través de las diferencias dialectales. Sin embargo, cada uno de ellos conforma la clase general que marca diferencia de significado entre palabras, como se puede apreciar en los ejemplos. Uno de los aspectos que hace fácil la escritura y lectura en castellano, es que esos cinco fonemas se representan siempre con las grafías correspondientes: ⟨a⟩, ⟨e⟩, ⟨i⟩, ⟨o⟩, ⟨u⟩.

Consonantes

Los fonemas consonánticos básicos que emplea el español para marcar mentalmente la diferencia en el significado de las palabras son los siguientes:


fonema	descripción	grafías	ejemplos
/b/	(oclusiva bilabial sonora)	⟨b⟩, ⟨v⟩	también /tamˈbjen/ - viene /ˈbjene/
/tʃ/, /t͡ʃ/	(africada postalveolar sorda)	⟨ch⟩	coche /ˈkotʃe/ - che /tʃe/
/d/	(oclusiva dental sonora)	⟨d⟩	dar /ˈdaɾ/ - cóndor /ˈkondoɾ/
/f/	(fricativa labiodental sorda)	⟨f⟩	café /kaˈfe/ - efe /ˈefe/
/g/	(oclusiva velar sonora)	⟨g⟩	guiso /ˈgiso/ - algo /ˈal.go/
/x/	(fricativa velar sorda)	⟨j⟩, ⟨g⟩ (ge,gi), ⟨x⟩	jota /ˈxota/ - gema /ˈxe.ma/ - México /ˈme.xi.ko/
/k/	(oclusiva velar sorda)	⟨k⟩, ⟨c⟩, ⟨q⟩	cama /ˈkama/ - que /ˈke/ - kilo /ˈki.lo/
/l/	(aproximante lateral alveolar)	⟨l⟩	las alas /las ˈalas/
/m/	(nasal bilabial)	⟨m⟩, ⟨n⟩	mama /ˈmama/ - enviar /emˈbjaɾ/
/n/	(nasal alveolar)	⟨n⟩	cana /ˈkana/
/ɲ/	(nasal palatal)	⟨ñ⟩	caña /ˈkaɲa/
/p/	(oclusiva bilabial sorda)	⟨p⟩	pera /ˈpeɾa/ - copa /ˈkopa/
/ɾ/	(vibrante alveolar simple)	⟨r⟩	pero /ˈpeɾo/ - enviar /emˈbjaɾ/
/r/	(vibrante alveolar múltiple)	⟨r⟩, ⟨rr⟩	perro /ˈpero/ - risa /ˈri.sa/
/s/	(fricativa alveolar sorda)	⟨s⟩, ⟨c⟩, ⟨z⟩, ⟨x⟩	soy /ˈsoj/ - risa /ˈri.sa/
/t/	(oclusiva dental sorda)	⟨t⟩	tú /ˈtu/ - esta /ˈes.ta/
/ʝ/	(fricativa palatal sonora)	⟨y⟩	ya /ˈʝa/ - cayó /kaˈʝo/
→ Fonemas con marca diferenciadora^[3]usados solo en algunos dialectos (ver variaciones fonológicas):
/ʎ/	(aproximante lateral palatal)	⟨ll⟩	llama /ˈʎama/ - calló /kaˈʎo /
/θ/	(fricativa dental sorda)	⟨z⟩, ⟨c⟩ (ce, ci)	cazar /kaˈθaɾ/ - cocer /koˈθeɾ/

En la práctica, muchos de estos fonemas básicos tienden a articularse de manera un poco diferente en vecindad con otros, sin que estas variaciones (alófonos) marquen una diferencia de significado, es decir, los hablantes los reconocen como el mismo sonido que identifica determinada palabra. Así, por ejemplo, el fonema /n/ se pronuncia /ɲ/ (como eñe) en enyesar, pero el hablante común lo sigue reconociendo como "ene" a nivel abstracto.

Los siguientes son algunos ejemplos, que ocurren en la mayoría de los dialectos del español, de fonemas que varían según su vecindad con otros:

/b/ se pronuncia	[β] (aproximante bilabial)		después de vocal o después de consonante distinta de /m/ o /n/^[4]
Ejemplos: lobo [ˈloβo] - no voy [ˈnoˈβoj] - árbol [ˈaɾβol] - béisbol [ˈbejsβol]

/d/ se pronuncia	[ð] (fricativa o aproximante)		después de vocal o después de consonante distinta de /l/, /m/ o /n/^[4]
Ejemplos: todo [ˈtoðo] - no doy [ˈnoˈðoj] - orden [ˈoɾðen] - desde [ˈdesðe]

/g/ se pronuncia	[ɣ] (fricativa o aproximante [ɰ])		después de vocal o después de consonante distinta de /m/ o /n/^[4]
Ejemplos: logo [ˈloɣo] - hay gas [ˈajˈɣas] - sorgo [ˈsoɾɣo] - algo [ˈalɣo]

/n/ tiende a mimetizarse con consonantes vecinas:

antes de /g/ se pronuncia [ŋ] (con el velo del paladar, como en tango, [ˈtaŋgo])

antes de palatales como /tʃ/ (⟨ch⟩) se vuelve también palatal: [ɲ] (como una eñe en cancha: [ˈkaɲtʃa])

antes de bilabiales como /b/ (⟨v⟩) se hace también bilabial (como una eme en enviar: [emˈbjaɾ]).

antes de dentales como /d/ y /t/ se hace también dental (como en cantar: [kan̪ˈtaɾ]).

antes de labiodentales como /f/ se hace también labiodental (como en énfasis: [ˈeɱfasis]).

Variaciones fonológicas

Como se detalla en Wikcionario:Variantes regionales del español, las distintas zonas del mundo hispánico presentan vastas diferencias en los modos concretos de realizar cada fonema, sin que esto implique una distinción de significado (son variaciones fonéticas, no fonológicas). Así, el posesivo tuyo, /ˈtuʝo/, podrá escucharse como [ˈtujo], [ˈtud͡ʒo], [ˈtuɟo] y [ˈtuʃo] sin que por ello pase a ser otra palabra.

Hay dos tipos de variación, sin embargo, que sí marcan una diferencia entre palabras (tienen valor de distinción fonológica). A estas dos variantes fonológicas aluden los términos "seseo" y "yeísmo" que, curiosamente, designan el modo de pronunciar de la mayoría (la mayor parte de los hablantes de español son seseantes y yeístas).

Seseo

(Mapa aproximado)

El término "seseo" designa el modo de pronunciar que no emplea el fonema /θ/ (fricativa dental sorda) como marcador de distinción léxica. Esta es la pronunciación de casi el 90% de los hablantes, y se considera normativa y culta. Los dialectos que no emplean el fonema /θ/ se han denominado "seseantes".

En algunos dialectos de la Península Ibérica, principalmente en el centro y norte, y en alguna medida en Guinea Ecuatorial y Filipinas, el fonema /θ/ sirve para distinguir términos como /ˈka.sa/ y /ˈka.θa/ (casa vs. caza), y se corresponde con las grafías ⟨z⟩, ⟨ce⟩ (/θe/), ⟨ci⟩ (/θi/). A este fenómeno, que también se considera normativo y culto, se le puede designar "distinción" o "diferenciación" (entre /s/ y /θ/). Ambos sonidos —[s] y [θ]— derivaron paralelamente del antiguo fonema /t͡s/ (como en la palabra italiana pizza) que se empleaba en el español del siglo XIV.^[5]

Compare la pronunciación de "gracias" en ambos dialectos:
seseo:		distinción:

Existe otro fenómeno, conocido como "ceceo", que consiste en emplear [θ] como alófono de /s/ en algunos casos. Se da mayoritariamente en el sur de la Península Ibérica (y en zonas puntuales de América), donde convive con la distinción y el seseo.

Yeísmo

(Mapa aproximado)

El término "yeísmo" designa el modo de pronunciar que no emplea el fonema /ʎ/ (aproximante lateral palatal) como marcador de distinción léxica. Esta es la pronunciación de la mayoría de los hablantes, y se considera normativa y culta.

En zonas de Suramérica y la Península Ibérica, el fonema /ʎ/ sirve para distinguir términos como /ˈkaʎo/ y /ˈkaʝo/ (callo vs. cayo), y se corresponde con la grafía ⟨ll⟩. A este fenómeno, que también se considera normativo y culto, se le puede designar "distinción" o "diferenciación" (entre /ʎ y /ʝ/). Esta era, de hecho, la pronunciación habitual en numerosos dialectos hispánicos hasta la primera mitad del siglo XX, pero se ha perdido en pocas décadas, en un rápido proceso conocido como la "deslateralización de /ʎ/".

yeísmo, /ʝ/ ("ya"):			distinción, /ʎ/ ("allá"):
[kas.teˈʝa.no]			[kas.teˈʎa.no]

Incidentalmente, el fonema /ʝ/ (fricativa palatal sonora), que ha venido reemplazanado a /ʎ/, tiene considerables variaciones regionales. Se pronuncia en muchos casos como la semiconsonante [j] (palatal aproximante), como [d͡ʒ] (africada sonora enfática, por ejemplo en partes de Colombia), como [ɟ͡ʝ] (africada suave, antes de /n/ en muchos dialectos) y como [ʃ] o [ʒ] (fricativa postalveolar sorda o sonora, en el área rioplatense). Tal es la variación, que algunos autores cuestionan la existencia real del fonema /ʝ/ en español.^[6]

Escritura

El sistema de representación gráfica o escritura del español es relativamente sencillo comparado con muchas otras lenguas. La siguiente tabla explica a grandes rasgos qué sonidos o fonemas representa cada letra del alfabeto hispánico.

Pronunciación de las letras del idioma español

Grafía	Fonema (AFI)	Audio	Contexto	Ejemplos
a	/a/		siempre	catalán
b	/b/		como inicial absoluta o luego de «m»	bajo - embuste
b	[β]		demás posiciones	abajo - mi bebé
c	/s/ (seseo)		delante de «i» , «e»	cena [ˈse.na] - cielo [ˈsje.lo]
	/θ/ (distinción)		delante de «i» , «e»	cena [ˈθe.na] - cielo [ˈθje.lo]
	/k/		demás posiciones	claro [ˈkla.ɾo] - doctor [dokˈtoɾ
cc	/k.s/ (seseo) /k.θ/ (distinción)	—	siempre	acción [akˈsjon] acción [akˈθjon]
ch	/t͡ʃ/		siempre	chile - hacha
d	/d/		como inicial absoluta o después de «l» o «n»	datos - cuando - saldaba
d	[ð]		demás posiciones	dádiva - arder - admirar - piedra
e	/e/		siempre	vehemente - pez
f	/f/		siempre	fase - café
g	/x/		ante «e», «i»	general - gitano - ge
	/ɡ/		como inicial absoluta o después de «l» o «n»	gato - gracias - lengua - algo
		(antes de «e», «i» se escribe «gu»; la «u» es muda)		guerra - guitarra
		las secuencias [gwe], [gwi] se escriben «güe», «güi»		pingüino
	[ɣ]		demás posiciones	trigo - amargo - signo - luego
		(antes de «e», «i» se escribe «gu»; la «u» es muda)		seguir - pague
		las secuencias [ɣwe], [ɣwi] se escriben «güe», «güi»		nicaragüense
h	muda	se mantiene por razones históricas		hola - helado
	después de «c», representa el sonido /t͡ʃ/ (véase «ch»)			chipotle - hacha
	en algunos usos, «hu» se pronuncia [ɣw], [gw], [w]			huevo (güevo) - huerta (güerta)
	en muy pocos dialectos se pronuncia a veces como /f/
i	/i/		entre consonantes y cuando es tónica junto a vocal	dimitir - mío - síncope
i	/j/		átona junto a otra vocal (suena como semivocal)	aliada - cielo - ciudad - construcción
j	/x/		siempre	jamón - eje - reloj - Juan
k	/k/		siempre	kilo -kiosco
l	/l/		siempre	lino - principal - culpable
ll	/ʎ/ (distinción)		siempre	llave - pollo - castellano
	/ʝ/ (yeísmo)
	/ʃ/ o /d͡ʒ/ (rioplatense)
m	/m/		siempre	madre - comer - campo - cambio
n	[m]		antes de «b», «v» o «p»	tranvía [emˈbi.ðja] un‿puesto [ˌumˈpwes.to]
	[ŋ]		antes de /k/ y /g/	tengo [ˈteŋ.go] - síncope
	[n̪]	antes de /t/ o /d/ (dental)		anterior [an̪.teˈɾjor]
	[ɱ]	antes de /f/ (labiodental)		énfasis [ˈeɱ.fa.sis]
	[n]		demás posiciones	nido - anhelo - sin - imaginante
ñ	/ɲ/		siempre	ñandú - cabaña - español
o	/o/		siempre	boscoso - como
p	/p/		siempre	pimpollo - topo
qu	/k/		ante «e», «i»	queso - tauromaquia
r	/r/		como inicial, tras «l», «n», «s» o el prefjo «sub-»	república - honra - subrayo
r	/ɾ/		demás posiciones	caro - creo - amor eterno
rr	/r/		siempre (se emplea solo entre vocales)	perro - torrente
s	/s/		siempre	eso - lo siento
s	/θ/		a veces (ceceo)
t	/t/		siempre	tamiz - átomo - tapas
t	presenta variaciones dialectales antes de «l»			Atlántico - chipotle
u	muda en las combinaciones «gue», «gui», «que», «qui»			guerra [ˈge.ra] - quiso [ˈki.so]
	/u/		entre consonantes y cuando es tónica junto a vocal	cucurucho - dúo - cruz
	/w/		átona junto a otra vocal (suena como semiconsonante)	agua - fuego - Huila - arduo
v	[b]		como inicial, después de una pausa o luego de «n»	vaca - envidia - tranvía
v	[β]		demás posiciones	cavo - mi viejo
w	[w]		en préstamos del inglés	Taiwán [tajˈwan] - waterpolo
w	[b]/[β]		en préstamos del alemán	wagneriano [baɣ.neˈɾja.no]
x	/ks/, a veces /s/	—	entre vocales	sexo - auxilio
	/ks/ o /s/	--	antes de consonante	texto [ˈteks.to] o [ˈtes.to]
	/s/		en posición inicial	xenofobia [se.noˈfo.βja]
	/x/		palabras que conservan la letra «x» por tradición	México - Texas
	/ʃ/		ciertos términos en dialectos americanos	xoconostle
y	[i], [j]		en posición final y en la conjunción «y»	soy - él y tú
	[ʝ], a veces [j]		demás posiciones	ayuno - yerba - mayor - mayo
	[ʃ] o [d͡ʒ] (rioplatense)		demás posiciones	ayuno - yerba - mayor - mayo
z	/s/ (seseo)		siempre	zapato
z	/θ/ (distinción)		siempre	zapato

Notas:

A principio de palabra, no se pronuncia la primera letra de los grupos "ps" y "gn" (como en "psíquico", "gnomo")
Entre vocales, la «r» /ɾ/ vs. «rr» /r/ representan un contraste de fonemas que definen pares mínimos como:

pero vs. perro, vara vs. barra, caro vs. carro

La lectura de las letras «q», «c», «z», «g» y «j» delante de las vocales puede resumirse así:

ca, que, qui, co, cu /ka ke ki ko ku/		cana quena quina cono cuna /ˈka.na ˈke.na ˈki.na ˈko.no ˈku.na/
za, ce, ci, zo, zu /θa θe θi θo θu/ /sa se si so su/ (seseo)	(sin seseo)	zapa cena cima zona zumo /ˈθa.pa ˈθe.na ˈθi.ma ˈθo.na ˈθu.mo/ /ˈsa.pa ˈse.na ˈsi.ma ˈso.na ˈsu.mo/
ja, ge/je, gi/ji, jo, ju /xa xe xi xo xu/		jala gema jefe gime jipa jota junto /ˈxa.la ˈxe.ma ˈxe.fe ˈxi.me ˈxi.pa ˈjo.ta ˈxun.to/
ga, gue, gui, go, gu /ga ge gi go gu/		garra guerra guisa gorra gurre /ˈga.ra ˈge.ra ˈgi.sa ˈgo.ra ˈgu.re/
gua, güe, güi, guo /gwa gwe gwi gwo/		agua desagüe pingüino antiguo /ˈa.gwa deˈsa.gwe pinˈgwi.no anˈti.gwo/

Las voces de otros idiomas tienden a pronunciarse con combinaciones cercanas a los sonidos del castellano:

la «a» de palabras como «airbag» y «software» tiende a pronunciarse como /e/
la «ng» de palabras como «ring» (de boxeo) tiende a pronunciarse como /ŋ/, a veces haciendo sonar la /g/
la «h» de palabras como «hámster» tiende a pronunciarse como /h/ o /x/
la «sh» de palabras como «show» y «flash» tiende a pronunciarse como /ʃ/ o /t͡ʃ/

Segmentos fonéticos

La sílaba

En la práctica, los sonidos básicos descritos arriba se articulan combinados en segmentos de mayor o menor duración. La unidad mínima pronunciada con un golpe de voz se llama "sílaba".

Por ejemplo, en la palabra "Panamá" se pueden escuchar tres sílabas:		/pa.na.ˈma/
Y dos en "claro":		/ˈkla.ɾo/

La duración de las sílabas en español no tiene un valor fonológico, es decir, un hablante puede hacer una sílaba tan larga o corta como quiera, y la palabra seguirá siendo identificada como la misma por quien le escuche. Tal duración, sin embargo, implicará un tono y una serie de connotaciones afectivas según el dialecto y los demás factores del habla pragmática.

Muchos autores describen el español como una lengua "silábicamente acompasada", es decir, en la cual todas las sílabas se pronuncian y las vocales de sílabas menos acentuadas se oscurecen poco.^[7]

En español, en la inmensa mayoría de los casos, cada sílaba se agrupa en torno a una o más vocales. Por ejemplo:

[ko.miˈte]

(co-mi-té)

~

[peɾˈðon]

(per-dón)

~

[ˌtaw.ɾoˈma.kja]

(tau-ro-ma-quia)

De hecho, muchas sílabas son solamente una vocal:

[aˈmoɾ]

(a-mor)

~

[ˈo.la]

(ho-la)

~

[ˈkɾe.o]

(cre-o)

Hiatos y diptongos

Para facilitar la explicación de cómo se combinan en sílabas, las vocales tradicionalmente se clasifican en:

abiertas: /a/ - /e/ - /o/

cerradas: /i/ - /u/

tónicas: que tienen mayor énfasis y duración (acento prosódico), como la /o/ en [a.ˈmoɾ] (amor)

átonas: no tónicas, como la /o/ en [ˈkɾe.o] (creo)

Las vocales cerradas átonas tienden a pronunciarse dentro de una misma sílaba si aparecen junto a una abierta tónica o a otra cerrada. Esta pronunciación de dos vocales en una sola sílaba se llama diptongo. Así, en la palabra "aire", la vocal abierta tónica /ˈa/ forma una sola sílaba con la cerrada átona /i/, la cual se convierte en una semi-vocal: [ ˈaj.ɾe ].

En el estudio tradicional del español, se consideran diptongos, pues, las combinaciones entre vocales cerradas o de vocal cerrada átona con abierta tónica, puesto que son las que forman una sola sílaba. Estas son:


ai	au	ia	ua	ei	eu	ie	ue	oi	io	uo	ou	ui	ui	iu	iu
hay	au-la	fiar	cual	rey	eu-ro	mies	pues	hoy	dios	cuo-ta	bou	muy	fui	viu-do	nullius
/ˈaj/	/ˈaw/	/jaˈ/	/waˈ/	/ˈej/	/ˈew/	/jeˈ/	/weˈ/	/ˈoj/	/joˈ/	/woˈ/	/ˈow/	/ˈuj/	/wiˈ/	/juˈ/	/ˈiw/

Cabe mencionar que algunos autores defienden la distinción entre diptongos crecientes, en cuyo caso [j]/[w] precede el núcleo silábico (p. ej. [mjes], mies y [pwes], pues), y diptongos decrecientes, donde [i̯ ]/[u̯ ] figuran a continuación de dicho núcleo (véanse [rei̯ ], rey o [ˈau̯ .la], aula). En aras de la simplicidad, recomendamos el empleo de [j]/[w] para todos los casos.

Obsérvese, en cambio, que en la palabra "aéreo" cada vocal abierta se pronuncia en una sílaba o golpe de voz diferente: [a.ˈe.ɾe.o]. Esta secuencia de vocales que se pronuncian en sílabas diferentes se llama hiato. Fonéticamente, forman dos sílabas:

dos vocales abiertas: [teˈa.tɾo] (te-a-tro), [poˈe.ta] (po-e-ta).
dos vocales iguales: [po.seˈeɾ] (po-se-er), [t͡ʃi.i.ta] (chi-i-ta).
vocal cerrada tónica con vocal abierta: [ˈfɾi.o] (frí-o), [gaˈɾu.a] (ga-rú-a), [reˈiɾ] (re-ír).^[8]

Existen también, aunque con menos frecuencia, grupos de tres vocales reunidas una sola sílaba, llamados triptongos. Estos tienen siempre la estructura de vocal cerrada átona-vocal abierta-vocal cerrada átona. Algunos ejemplos comunes son:

[pa.ɾaˈɣwaj] (Pa-ra-guay) ~ [ˈgwaw] (guau) ~ [kamˈbjajs] (cam-biáis) ~ [ˈjoj.ðes] (hioi-des).

Para todos los casos mencionados, la siempre muda letra ⟨h⟩ no influye en su consideración como diptongo o como hiato: [ˈbu.o] (bú-ho), [ajˈxa.do] (ahi-ja-do), [aˈi] (a-hí), etc.

Esta es, digamos, la normativa o estructura general de la combinación entre vocales. Su realización en el habla coloquial y regional se comenta más adelante en este artículo, a grandes rasgos, en la sección de diptongación dialectal.

La división silábica

Como se explicó anteriormente, las sílabas en castellano constituyen el segmento pronunciado con un golpe de voz alrededor de una o más vocales. La manera en que se agrupan las consonantes en las sílabas, tanto de forma oral como escrita, es la siguiente:^[9]

Cada consonante forma sílaba con la vocal que le sigue: ca-sa ; pe-ro ; sa-lón.
Las grafías dobles que representan un solo sonido, nunca se separan: ⟨ch⟩, ⟨ll⟩, ⟨rr⟩, ⟨qu⟩ (que, qui), ⟨gu⟩ (gue, gui) representan los fonemas /t͡ʃ/, /ʎ/, /r/, /k/ y /g/ respectivamente: co-che ; a-llá ; zo-rro ; to-que ; se-guí ; al-qui-mia.
Si hay dos consonantes juntas, se separan cada una en una sílaba diferente: am-ne-sia ; nun-ca ; cor-te; hin-char; ad-he-rir ; he-mis-fe-rio ; Is-ra-el ; en-ri-que-cer ; es-la-bón
NO se separan las combinaciones en que /ɾ/ y /l/ vienen después de otra consonante oclusiva o fricativa, puesto que conforman una unidad sonora (bl, br, cr, cl, dr, dl, fr, fl, gr, gl, pl, pr, tr y tl): sa-ble ; co-bro ; ti-gre ; con-tra-to ; a-pli-car ; flu-jo ; es-cla-vos
Si hay tres consonantes juntas, las dos primeras van con la vocal anterior y la tercera con la siguiente vocal: trans-por-te ; ins-ti-tu-to (excepto las combinaciones mencionadas en el #4: em-bra-gue ; en-cla-ve ; tras-plan-tar).
Si hay cuatro consonantes juntas, dos forman una sílaba y las dos siguientes otra: cons-truir ; trans-gre-sión

Diptongación dialectal

Aparte de la combinación fonológica entre vocales y consonantes detallada en las dos secciones anteriores, hay un número de combinaciones que hablantes de diferentes dialectos pronuncian con hiato o con diptongo. Por ejemplo, algunos hablantes pronuncian con diptongo la palabra [peˈɾjo.ðo] (pe-rio-do) y otros con hiato: [peˈɾi.o.ðo] (pe-rí-o-do), y muchas en -iaco, como [kaɾˈðja.ko] (car-dia-ko) y [kaɾˈði.a.ko] (car-dí-a-co). Ambas grafías y formas de pronunciación se consideran cultas y normativas.

Este caso ocurre también, por razones etimológicas, con un número limitado de monosílabos (que desde 2010 se escriben sin tilde, pero ambas pronunciaciones se consideran cultas y normativas):^[10]

Las siguientes formas de los verbos criar, fiar, guiar, liar y piar:
grafía	crie	crio	criais	crieis	crias	cria
con diptongo	[ˈkɾje]	[ˈkɾjo]	[ˈkɾjajs]	[ˈkɾjejs]	[ˈkɾjas]	[ˈkɾja]
con hiato	[kɾiˈe]	[kɾiˈo]	[kɾiˈajs]	[kɾiˈejs]	[kɾiˈas]	[kɾiˈa]

Las siguientes formas de los verbos fluir, fruir y huir:							Las siguientes formas de los verbos freír y reír:
grafía	flui	fluis	frui	fruis	hui	huis	frio	friais	rio	riais
con diptongo	[ˈflwi]	[ˈflwis]	[ˈfɾwi]	[ˈfɾwis]	[ˈwi]	[ˈwis]	[ˈfɾjo]	[ˈfɾjajs]	[ˈrjo]	[ˈrjajs]
con hiato	[fluˈi]	[fluˈis]	[fɾuˈi]	[fɾuˈis]	[uˈi]	[uˈis]	[fɾiˈo]	[fɾiˈajs]	[riˈo]	[riˈajs]

Y sustantivos como:
grafía	guion	ion	muon	pion	prion	ruan	truhan	Ruan	Sion
con diptongo	[ˈgjon]	[ˈjon]	[ˈmwon]	[ˈpjon]	[ˈpɾjon]	[ˈrwan]	[ˈtɾwan]	[ˈrwan]	[ˈsjon]
con hiato	[giˈon]	[iˈon]	[muˈon]	[piˈon]	[pɾiˈon]	[ruˈan]	[tɾuˈan]	[ruˈan]	[siˈon]

Por otro lado, a lo largo de toda la geografía hispánica "existe una tendencia antihiática muy marcada en el habla popular"^[8]. Es decir, se tiende en el habla coloquial a pronunciar como diptongos un gran número de combinaciones entre vocales abiertas (diptongación o sinéresis). Así ocurre en la pronunciación de la palabra "área" en el siguiente ejemplo, que suena casi como [ˈa.ɾja]:

"área":

El caso más predecible de este tipo de diptongación es el de los verbos con el sufijo -ear, que en la vida informal se pronuncian con -iar: [peˈljaɾ] por [pe.leˈaɾ] (pelear), [miˈkjaɾ] (miquiar) por [mi.keˈaɾ] (miquear), etc. Varias entradas de los diccionarios de americanismos listan directamente la forma coloquial en -iar (véanse más ejemplos en Categoría:ES:Palabras con el sufijo -iar).

La palabra

Si bien las sílabas son el segmento mínimo de sonidos habitualmente pronunciados con un golpe de voz, pocas de ellas tienen significado por sí mismas. Su combinación en palabras es la unidad mínima de significado. Por supuesto, numerosas palabras en castellano son de una sola sílaba (monosílabos):

tan [tan] - pues [pwes] - friais [fɾjajs]

Sin embargo, hay un número mucho mayor de palabras con varias sílabas (las de dos y tres sílabas, combinadas, constituyen aproximadamente el 50% del léxico más usado en castellano).^[11] Y la mayoría de ellas incluye un énfasis o acento sobre alguna de sus sílabas (llamadas por ello tónicas). Estos son algunos ejemplos:

[maˈron]		marrón	-	[kas.teˈʎa.no]		castellano	-	[la.reˈpu.βli.ka]		la república
(acento en on, última sílaba)			-	(la tónica es ʎa, penúltima sílaba)			-	(la antepenúltima sílaba, pu, es la tónica)

Este acento tiene valor fonológico, ya que está íntimamente relacionado con el sentido de la palabra (por ello se puede llamar acento léxico, es decir, que tiene impacto en el significado). Es fácil percibir este efecto en palabras que tienen la misma secuencia de fonemas, por ejemplo:

término → [ˈteɾ.mi.no] → significa palabra o vocablo: "No entiendo ese término que usó el periodista".

termino → [teɾˈmi.no] → significa "yo finalizo" (presente): "Siempre termino los exámenes a tiempo".

terminó → [teɾ.miˈno] → significa "él/ella/usted finalizó" (pretérito): "Juan no terminó de lavar los platos ayer".

Casi el 80% de las palabras empleadas con mayor frecuencia (excluyendo las que son átonas, como se explica más abajo), tienen el acento léxico en la penúltima sílaba. Estas son llamadas "graves", "llanas" o "paroxítonas". Algunos ejemplos son: "castellano" [kas.teˈʝa.no], "palabra" [paˈla.βɾa] y "frente" [ˈfɾen.te].

Luego, aproximadamente el 16% llevan el acento en la última sílaba. Estas son llamadas "agudas" u "oxítonas". Algunos ejemplos son: "marrón" [maˈron], "papel" [paˈpel] y "así" [aˈsi].

Un 3% de las palabras empleadas con mayor frecuencia llevan el acento en la antepenúltima sílaba, y se llaman esdrújulas o proparoxítonas. Por ejemplo: "república", "número" y "débiles".

Hay unas pocas, todas formas verbales con pronombres enclíticos, que tienen el acento en la trasantepenúltima sílaba, y son llamadas sobresdrújulas o superproparoxítonas. Por ejemplo: "comuníquesele" o "tráemelo".

En el habla real, muchas palabras son átonas, es decir, no se pronuncian con acento en una sílaba particular, puesto que se juntan con otras palabras en una unidad léxica y en continuidad fónica. Tal es el caso de muchos artículos (el, la, los, las), muchas conjunciones (la casa que quiero; ; descansaré cuando llegues), y muchas preposiciones (la mesa de madera; un arroz para el almuerzo), entre otras. Sin embargo, al pronunciarse o pensarse aisladamente, sí puede identificarse su acento léxico.

La acentuación gráfica

→ Para una explicación detallada, puede consultarse Acentuación del idioma español en Wikipedia.

La escritura del castellano emplea un sistema de tildes o acentos gráficos que resulta muy práctico para reconocer cuál es la sílaba tónica de cada palabra:

Las palabras que terminan en vocal, en ⟨n⟩ o en ⟨s⟩ y no tienen tilde, son graves (la sílaba tónica es la penúltima). Estas son la inmensa mayoría. Así, sabemos que "mañana" es grave, [maˈɲa.na], porque termina en vocal y no tiene tilde.
Las palabras que terminan en consonante diferente de ⟨n⟩ o de ⟨s⟩ y no tienen tilde, son agudas (la sílaba tónica es la última). De este modo, sabemos que "fundamental" es aguda, [fun.da.menˈtal], porque termina en ⟨l⟩ y no tiene tilde.
Cualquier palabra de varias sílabas que no sea aguda ni grave, tiene tilde: "república", "comuníquesele".
Independientemente del lugar de la sílaba tónica, los hiatos que resultan de una vocal cerrada átona junto a una abierta tónica, se indican con tilde: río, búho, economía, grúa.
En general, los monosílabos no llevan tilde, pero en algunos se marca para diferenciarlos de sus homónimos: «No le dé usted la mesa de madera»; «tú vives en tu casa»; «mi familia es importante para mí»; «sí iré si ella va conmigo»; «te voy a servir el té»; etc.
Los adjetivos/pronombres interrogativos y exclamativos llevan tilde siempre (para indicar que son tónicos, a diferencia de sus conjunciones homónimas): «¿Dónde te espero? Espérame donde quieras»; «¡qué bueno que llegaste!».

La única excepción significativa a las reglas anteriores ocurre con los adverbios formados con el sufijo -mente que, aunque siempre graves (la sílaba tónica es -men-), conservan la tilde si el adjetivo del cual derivan la tiene. Por ejemplo: "rápido" → "rápidamente". La razón es que en su pronunciación conservan el acento del adjetivo como énfasis secundario: [ˌra.pi.daˈmen.te].

La sinalefa

En la enunciación, las palabras se coordinan entre sí para formar mensajes con sentido. El fenómeno fonético más notorio en el encadenamiento de palabras es la sinalefa, que consiste en unir las vocales al final de una palabra con las que están al comienzo de la siguiente. Así, por ejemplo, en la frase "lo entiendo", la /o/ final átona se une con la /e/ inicial átona en una sola sílaba: [lwenˈtjen.do].

Más ejemplos:

¿Y qué‿hora es?

[iˈquio.ɾaˈes↗]

~

Me duele‿el estómago

[meˈðwe.lel.esˈto.ma.ɣo]

La sinalefa se realiza como un diptongo, es decir, como si se tratara de una sola sílaba, cuando una de las dos vocales, o ambas, son átonas, es decir, no están en la sílaba que lleva el acento léxico. El proceso, sin embargo, es complejo (no sucede entre todas las vocales ni en todas las posiciones, pues depende de facotres sintácticos), varía según el registro (coloquial, formal, etc.) y según el dialecto, y no tiene mayores implicaciones fonológicas (no afecta el significado básico de cada palabra), aunque sí afectivas y expresivas.

La entonación

Los sonidos se integran en sílabas, las sílabas en palabras, las palabras en frases y, finalmente, las frases se suceden entre sí dentro de un discurso. En castellano, para este nivel más complejo, la entonación no tiene implicaciones fonológicas (no altera el significado de las palabras), pero sí un valor pragmático. Obsérvese por ejemplo cómo se altera el sentido de la interjección ¡"ah"! con diferentes entonaciones:

	(decepción)	~		(admiración)	~		(comprensión)	~		(interrogación)
entonación descendente		~	entonación exclamativa		~	entonación llana		~	entonación ascendente

De nuevo, la entonación varía mucho a través de las áreas dialectales del castellano, pero pueden destacarse tres compartidas por la mayor parte:

entonación ascendente:		para preguntas que se responden con sí o no
entonación descendente:		para preguntas con pronombres interrogativos
entonación llana:		para declaraciones asertivas

Véase también

Indicaciones y políticas sobre la transcripción de pronunciación en Wikcionario en español

Referencias y notas

↑ «dialecto» en Diccionario de la lengua española. Editorial: Real Academia Española, Asociación de Academias de la Lengua Española y Espasa. 23.ª ed, Madrid, 2014.
↑ Ladefoged, Peter; Johnson, Keith (1975) A Course in Phonetics, 6.^a edición, Boston, MA: Wadsworth, 2010, p. 227.
↑ Es decir, que contribuyen a marcar la diferencia de significado entre palabras, particularmente entre pares mínimos, como "casa" /ˈkasa/ vs. "caza" /ˈkaθa/, o halla /ˈaʎa/ vs. haya /ˈaʝa/
↑ ^4,0 ^4,1 ^4,2 Garrido, J. M., Machuca, M. J. y de la Mota, C. (1998). Prácticas de fonética. Lengua española I. Bellaterra: Universitat Autònoma de Barcelona. [1]
↑ Para una historia de este fenómeno véanse “Reajuste de las sibilantes del idioma español” en Wikipedia, y Cano, Rafael (2005) Historia de la lengua española. Barcelona: Ariel Lingüística.
↑ Hualde, J. I. (2005). The sounds of Spanish. Cambridge: Cambridge University Press.
↑ Gil Fernández, Juana (2007) Fonética para profesores de español: de la teoría a la práctica. Madrid: Arco/Libros, pp. 317-18.
↑ ^8,0 ^8,1 Diccionario panhispánico de dudas. Editorial: Real Academia Española.
↑ Para efectos de dividir palabras con guiones al final de una línea, hay otras reglas específicas, no fonéticas sino ortográficas. Véase Diccionario panhispánico de dudas. Editorial: Real Academia Española. .
↑ Principales novedades de la ortografía de la lengua española 2010, "§4. Eliminación de la tilde en palabras con diptongos o triptongos ortográficos". Real Academia Española, http://www.rae.es/recursos/ortografia/ortografia-2010 Consultada el 12 de octubre de 2018.
↑ Troya, M. (1998). «Frecuencia de esquemas acentuales en la norma culta del español de Las Palmas de Gran Canaria». Philologica Canariensia. Revista de Filología de la Universidad de Las Palmas de Gran Canaria, 4-5, 413-430. Consultado en http://hdl.handle.net/10553/3986

Enlaces externos

Wikipedia tiene un artículo sobre Transcripción fonética del español con el Alfabeto Fonético Internacional.
Wikipedia en inglés tiene un artículo sobre Alfabeto Fonético Internacional con audio.
Wikilibros alberga un libro o manual sobre fonología del español.

Project modelino. Transcripción automática del español al alfabeto fonético
Mapas de isoglosas de variantes fonéticas del español en la Península Ibérica, en JotaMartin.ByetHost33.com

[1] «dialecto» en Diccionario de la lengua española. Editorial: Real Academia Española, Asociación de Academias de la Lengua Española y Espasa. 23.ª ed, Madrid, 2014.

[2] Ladefoged, Peter; Johnson, Keith (1975) A Course in Phonetics, 6.^a edición, Boston, MA: Wadsworth, 2010, p. 227.

[3] Es decir, que contribuyen a marcar la diferencia de significado entre palabras, particularmente entre pares mínimos, como "casa" /ˈkasa/ vs. "caza" /ˈkaθa/, o halla /ˈaʎa/ vs. haya /ˈaʝa/

[garr-4] 4,0 ^4,1 ^4,2 Garrido, J. M., Machuca, M. J. y de la Mota, C. (1998). Prácticas de fonética. Lengua española I. Bellaterra: Universitat Autònoma de Barcelona. [1]

[5] Para una historia de este fenómeno véanse “Reajuste de las sibilantes del idioma español” en Wikipedia, y Cano, Rafael (2005) Historia de la lengua española. Barcelona: Ariel Lingüística.

[6] Hualde, J. I. (2005). The sounds of Spanish. Cambridge: Cambridge University Press.

[7] Gil Fernández, Juana (2007) Fonética para profesores de español: de la teoría a la práctica. Madrid: Arco/Libros, pp. 317-18.

[hiato-8] 8,0 ^8,1 Diccionario panhispánico de dudas. Editorial: Real Academia Española.

[9] Para efectos de dividir palabras con guiones al final de una línea, hay otras reglas específicas, no fonéticas sino ortográficas. Véase Diccionario panhispánico de dudas. Editorial: Real Academia Española. .

[10] Principales novedades de la ortografía de la lengua española 2010, "§4. Eliminación de la tilde en palabras con diptongos o triptongos ortográficos". Real Academia Española, http://www.rae.es/recursos/ortografia/ortografia-2010 Consultada el 12 de octubre de 2018.

[Troya-11] Troya, M. (1998). «Frecuencia de esquemas acentuales en la norma culta del español de Las Palmas de Gran Canaria». Philologica Canariensia. Revista de Filología de la Universidad de Las Palmas de Gran Canaria, 4-5, 413-430. Consultado en http://hdl.handle.net/10553/3986

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]