Những tiến bộ gần đây về tổng hợp giọng nói (TTS), được đóng góp rất nhiều bởi các kỹ thuật tổng hợp tham số thống kê hoặc học sâu để tăng cường chất lượng tiếng nói tổng hợp tiệm cận với tiếng nói tự nhiên. TTS được ứng dụng trong nhiều lĩnh vực như tương tác lời nói thông minh, chatbot hoặc hệ thống hỗ trợ khách hành có sử dụng trí tuệ nhân tạo (AI). Kỹ thuật dựa trên học sâu nghiên cứu mối quan hệ giữa các cặp dựa trên nhãn thời gian trong tập ngữ liệu rất lớn, do đó kỹ thuật học sâu mô tả đặc trưng ngôn điệu, biểu cảm của tiếng nói tổng hợp tốt hơn kỹ thuật tổng hợp dựa trên tham số thống kê. Bài báo thảo luận các vấn đề của học sâu trong tổng hợp tiếng nói và đề xuất cải tiến, nâng cao chất lượng tiếng nói tổng hợp dựa trên mạng nơ-ron sâu.