টেক্সট টু স্পিচ (TTS) টেক্সট টু স্পিচ হল ডিজিটাল লেখাকে ম্যাশিনের মাধ্যমে উচ্চারিত কথায় রূপান্তর করা। ইউনিকোড টেক্সট থেকে সংশ্লেষিত স্পিচ তৈরি করা। টিটিএস ডকুমেন্ট, ওয়েবসাইট, স্ক্রিনের উইন্ডো ইত্যাদিতে উপস্থিত টেক্সট পড়ে শোনাতে পারে। কখনো তা দৃষ্টি প্রতিবন্ধী ব্যক্তির জন্য উপযোগী হয়ে পড়ে শোনাতে পারে। এই ধরনের সিস্টেমের প্রাথমিক চ্যালেঞ্জ হল ম্যাশিনের মাধ্যমে উচ্চারিত কথাকে বোধগম্য, স্বাভাবিক এবং মানুষের মুখের স্বাভাবিক কথা বা বক্তৃতার মতো শোনানো। এখন পর্যন্ত টিটিএস-এ যথেষ্ট পরিমাণ গবেষণা হয়েছে। অতি সম্প্রতি, টিটিএস সিস্টেমে একটি বড় অগ্রগতি ঘটেছে ডিপ লার্নিং ভিত্তিক কৌশলগুলির অগ্রগতির সাথে সাথে প্রচুর পরিমাণে ডেটার প্রাপ্যতার সাথে। এইভাবে, গুগল, মাইক্রোসফট ,প্রভৃতি প্রতিষ্ঠান দ্বারা বেশকিছু অ্যাপ্লিকেশন তৈরি করা হয়েছে। এই প্রকল্পে, আমাদের লক্ষ্য হল বাংলা ভাষার জন্য টিটিএস ইঞ্জিন তৈরি করা যা উইন্ডোজ, লিনাক্স, অ্যান্ড্রয়েড এবং আইওএস-সহ বিভিন্ন প্ল্যাটফর্মে কাজ করবে।
টিটিএসের মূল কাজ বাংলা ইউনিকোড টেক্সটকে একটি শ্রবণযোগ্য বাংলা বক্তৃতায় রূপান্তর করার সিস্টেম। সিস্টেমটি ফাইল থেকে টেক্সট বের করতে এবং নিম্নলিখিত প্রয়োজনীয়তা অনুসারে আউটপুট স্পিচ তৈরি করতে সক্ষম হবে: আউটপুট স্পিচ কোয়ালিটি: আউটপুট অডিও সাউন্ড অবশ্যই বোধগম্য হতে হবে যার মানে এটি বিভিন্ন উচ্চারণের সাধারণ বাংলা ব্যবহারকারীদের বোধগম্য হওয়া উচিত। আউটপুট ভয়েসটিতে কিছু ত্রুটি থাকতে পারে তবে এটি পরবর্তী বিভাগে নির্দিষ্ট করা সর্বোচ্চ ত্রুটির মাত্রা অতিক্রম করা উচিত নয়। আরও স্বাভাবিক বক্তৃতা তৈরি করতে ইঞ্জিনে অবশ্যই প্রসোডিক এবং ইনটোনেশন বৈশিষ্ট্য নিয়ন্ত্রণ থাকতে হবে। ভয়েস মুডে ভয়েস ফ্রিকোয়েন্সি সহ দুঃখ, সুখ, ফিসফিস, উচ্চস্বর থাকবে। চিৎকার অডিওর পিচ, সময়, গতি এবং ভয়েস টাইপ (পুরুষ/মহিলা/প্রাপ্তবয়স্ক/শিশু) এর মতো আউটপুট স্পিচ প্যারামিটারগুলি সামঞ্জস্য করার জন্য সিস্টেমে রয়েছে। শৈলী: অন্য কোন শব্দ বস্তু/স্টাইল/ফরম্যাট/ইত্যাদি। পাঠ্যের মধ্যে উপস্থিত থাকা অবশ্যই সিস্টেমটিকে তার পছন্দসই ফাংশন সম্পাদন করতে বাধা দেবে না। বোল্ড/আন্ডারলাইনড/ইট্যালিক/ইত্যাদি হিসাবে ফর্ম্যাট করা হয়েছে। বুলেট/নম্বরিং হিসাবে ফর্ম্যাট করা টেক্সটগুলিকে অবশ্যই স্পিচে রূপান্তর করতে হবে বাংলা অর্থোগ্রাফিক অক্ষর, ব্যঞ্জনবর্ণ, যুক্তবর্ণ এবং বিরাম চিহ্নসহ বিভিন্ন চিহ্ন শনাক্ত করতে সক্ষম হবে। জিজ্ঞাসাবাদমূলক, নেতিবাচক, বিস্ময়সূচক এবং আদেশমূলক বাক্যের বৈচিত্র্য শনাক্ত করার ক্ষমতা থাকতে হবে। বিভিন্ন ফরম্যাটের সংখ্যা যেমন তারিখ, সময়, ফ্লোট, মুদ্রা, অর্ডিনাল এবং এক্সপ্রেশনের সঠিক রূপান্তর করতে পারবে। বাংলা ভাষায় ব্যবহৃত বিভিন্ন সংক্ষিপ্ত রূপ, আদ্যক্ষর এবং সংক্ষিপ্ত শব্দ শনাক্ত করতে সক্ষম হবে এবং সেই অনুযায়ী সেগুলিকে কথায় রূপান্তর করতে পারবে। সিস্টেমটি অবশ্যই ডক, ডকএক্স, পিডিএফ এবং ওয়েব পেজ (যেমন এইচটিএমএল) নথিগুলির ফর্ম্যাট করা পাঠ্যগুলির জন্য আউটপুট স্পিচ তৈরি করতে সক্ষম হবে।