فرآوری گفتار - ویکیپدیا، دانشنامهٔ آزاد
این مقاله به هیچ منبع و مرجعی استناد نمیکند. |
فرآوری گفتار (به انگلیسی: speech synthesis) یا متن به گفتار (به انگلیسی: Text-to-Speech) که سرواژه آن TTS است، برنامهای است که متن ورودی را به صدای انسان را میخواند.
این نوع برنامه برای تبدیل متن به پرونده صوتی (کتاب گویا)، تلفظ کلمات در نرمافزارهای واژهنامه، خواندن صفحه رایانه و نیز تلفن هوشمند مخصوصاً برای کاربران نابینا توسط نرمافزارهای صفحهخوان کاربرد دارد. همچنین در سامانههای تلفن مخابرات و نیز دستگاههای خودپرداز جهت ارتباط گفتاری با کاربر بکار میرود.
باید توجه کرد که اصطلاح «متن به گفتار» برای اشاره به دو مفهوم متفاوت بکار میرود:
الف) موتور متن به گفتار (به انگلیسی: Text-to-Speech engine)
ب) پخشکننده متن به گفتار (به انگلیسی: Text-to-Speech player)
که وظیفه تبدیل متن به گفتار در پسزمینه بر عهده موتور متن به گفتار است و پخشکننده متن به گفتار محیط کاربری برای وارد کردن متن و گرفتن خروجی صدا یا ذخیره در قالب پرونده صوتی را فراهم میکند. به منظور جلوگیری از ابهام معمولاً موتور متن به گفتار اصطلاحاً (به انگلیسی: Speech-synthesizer) نامیده میشود از طرف دیگر پخشکننده متن به گفتار مخصوصاً در بین کاربران عام رایانه متن به گفتار نامیده میشود. لیکن باید توجه کرد زبانهای پشتیبانی شده گفتار و کیفیت صدا مربوط به موتور متن گفتار است و یک موتور متن به گفتار با رابط برنامهنویسی (API) به راحتی در نرمافزارهای گوناگون (پخشکنندههای متن به گفتار) قابل فراخوانی و استفاده است.
بهطور کلی برای تبدیل متن به گفتار نیاز است تا پارامترهای مهم در تولید گفتار استخراج و استفاده شوند. استخراج بعضی از این پارامترها همچون رشته آوایی نوشتار، کشش زمانی واجها و منحنی پیچ گفتار الزامی و بعضی دیگر همچون سرعت بیان، درنگ بین کلمات و تن صدا از جمله پارامترهای غیرضروری میباشند که استفاده از آنها منجر به بهبود خروجی سیستم میگردد.[۱] پیمانههای لازم برای تبدیل متن به گفتار در یک سیستم تولید گفتار از متن عموماً شامل دو بخش است: بخش پردازش زبان طبیعی اجزاء سازنده متن ورودی شامل کلمات، گروههای گرامری، جمالت و دیگر اطلاعات مرتبط با پردازش زبان که در بخش پردازش سیگنال دیجیتالی به عنوان ورودی مورد نیاز است تهیه میکند. بخش پردازش دیجیتالی سیگنال با استفاده از نتایج حاصل از بخش NLP، پارامترهای گفتار را شامل رشته آوایی متن و پارامترهای نوایی تعیین و در انتها گفتار خروجی با استفاده از یک موتور سنتز تولید میگردد.
موتورهای متن به گفتار مشهور
[ویرایش]در حال حاضر ئی اسپیک، پارس خوان و نرم فزار آریانا و تاک بات و «ماهور» موتورهای متن به گفتار مشهور هستند که از زبان فارسی پشتیبانی میکنند.
یکی از کاملترین پخشکننده متن به گفتار در مایکروسافت ویندوز بالابولکا (به انگلیسی: Balabolka) نام دارد. ویژگی جالب این نرمافزار تشخیص متن فارسی از انگلیسی و استفاده از موتورهای متن به گفتار جداگانه (با رابط Windows SAPI 5) برای هر یک از زبانها است.
مقالات مرتبط
[ویرایش]پیوند به بیرون
[ویرایش]منابع
[ویرایش]- ↑ بهرنگ قاسمی زاده و مجید نم نبات، ساختار یک سیستم تبدیل متن به گفتار برای زبان فارسیT بایگانیشده در ۱۷ نوامبر ۲۰۱۵ توسط Wayback Machine
- مشارکتکنندگان ویکیپدیا. «Speech synthesis». در دانشنامهٔ ویکیپدیای انگلیسی، بازبینیشده در ۲۱ مارس ۲۰۱۹.
- https://en.wikipedia.org/wiki/Comparison_of_speech_synthesizers
- https://en.wikipedia.org/wiki/ESpeak
- https://en.wikipedia.org/wiki/Microsoft_Speech_API