বাংলাদেশের জাতীয় করপাস করপাস হলো ভাষার বিশাল ইলেকট্রনিক সংগ্রহ যা ব্যবহার করে কৃত্রিম বুদ্ধিমত্তাসম্পন্ন বিভিন্ন গুরুত্বপূর্ণ সফটওয়্যার তৈরি করা যায়। এছাড়াও করপাস বিশ্লেষণ করে কোনো ভাষার বৈশিষ্টসমূহ নির্ধারণ করা যায়। করপাস হলো ভাষাবিষয়ক তথ্যপ্রযুক্তির মূল শক্তি। তাই বাংলা ভাষার করপাস উন্নয়ন সর্বাগ্রে প্রয়োজন। এজন্য ভবিষ্যত প্রযুক্তির সঙ্গে দেশকে ও দেশের মানুষকে সম্পৃক্ত করতে হলে দেশের মানুষের ভাষাকে প্রযুক্তি জগতে অভিযোজিত করতে হবে। এই লক্ষ্যে বাংলা ভাষার জন্য ইলেকট্রনিক টেক্সটের একটি তথ্যভাণ্ডার হিসেবে জাতীয় করপাস তৈরির কাজ চলছে। ‘ব্রিটিশ ন্যাশনাল করপাস’, ‘অ্যামেরিকান ন্যাশনাল করপাসে’র মতো বাংলাদেশ ন্যাশনাল করপাস (বিডিএনসি), যা আন্তর্জাতিক মান রক্ষা করে প্রস্তুত করা হচ্ছে। বাংলাদেশ সরকারের তথ্য ও যোগাযোগ প্রযুক্তি বিভাগের অধীনে বাংলাদেশ কম্পিউটার কাউন্সিল পরিচালিত ‘গবেষণা ও উন্নয়নের মাধ্যমে তথ্যপ্রযুক্তিতে বাংলা ভাষা সমৃদ্ধকরণ’ প্রকল্পের মাধ্যমে জাতীয় করপাস উন্নয়নের কাজ শুরু হয়েছে। ভাষিক তথ্য ছাড়াও এই কম্পোনেন্টে বিভিন্ন ভাষাভিত্তিক মডেল, সহযোগী টুলস এবং জনগণের ব্যবহােরর জন্য বেশকিছু সাির্ভস ও পণ্য প্রস্তুত করা হচ্ছে।
জাতীয় করপাসে যেসব বিষয় অন্তর্ভুক্ত থাকছে করপাসে লিখিত বাংলা ভাষার প্রায় সকল ধরনের নমুনা থাকবে। যত বেশি পরিমাণে তথ্য থাকবে, এর মাধ্যমে তৈরি সফটওয়্যার তত কার্যকরী হবে। প্রাথমিকভাবে জনপরিসরে প্রকাশযোগ্য বিভিন্ন ধরনের টেক্সট সংগ্রহ করার পরিকল্পনা করা হয়েছে।
প্রথম চিত্রে, জাতীয় করপাসে বিভিন্ন ধরনের টেক্সটের ডিসি্ট্রবিউশন। দ্বিতীয় চিত্রে, জাতীয় করপাসে কোন শব্দ কতবার ব্যবহৃত হচ্ছে এবং প্রথম কখন ব্যবহৃত হয়েছে তা জানা যাবে। জাতীয় করপাসে বিভিন্ন ডোমেইনের তালিকা নিম্নরূপ: সরকারি ডকুমেন্ট যেমন, সরকারি চিঠি, নোটিশ, ম্যানুয়াল, আইন-বিধি, প্রজ্ঞাপন, বিজ্ঞপ্তি, বার্ষিক প্রতিবেদন, সভার কার্যবিবরণী, দলিল/চুক্তিনামা প্রভৃতি। চলমান ঘটনাপ্রবাহ ও সংবাদের নমুনা যেমন, সংবাদপত্র ও টিভি সংবাদের স্ক্রিপ্ট/ সফটকপি, প্রেস রিলিজ প্রভৃতি। বিভিন্ন ধরনের সাহিত্যিক ও সৃজনশীল টেক্সট যেমন, উপন্যাস, নাটক, কবিতা, ছোটগল্প/গল্প, উপকথা, লোককথা, স্মৃতিকথা, কল্পবিজ্ঞান, অনুবাদ, গানের কথা প্রভৃতি।
বিভিন্ন ধরনের বুদ্ধিবৃত্তিক ও তথ্যমূলক টেক্সট যেমন, নন-ফিকশন বই, প্রবন্ধ/ প্রবন্ধ সংকলন, ম্যাগাজিন; একাডেমিক টেক্সট বই, জার্নাল আর্টিকেল, দৈনিক পত্রিকার সম্পাদকীয় পাতার প্রবন্ধ ইত্যাদি। নিয়মাবদ্ধ বা স্ট্রাকচারড টেক্সটের নমুনা যেমন, বিভিন্ন ধরনের অভিধান, নাগরিক ডেটাবেইজ, প্রশাসনিক/ভৌগোলিক স্থাননামের (জিপিই) তালিকা। সামাজিক নেটওয়ার্ক সাইট থেকে তথ্য যেমন বিভিন্ন ফেইসবুক পোস্ট, ইউটিউব ও ফেইসবুকের মন্তব্য। বুক-রিভিউ, ফুড রিভিউ, ইকমার্স সাইটগুলোতে লিখিত বাংলা রিভিউ/ মন্তব্য। প্রাতিষ্ঠানিক ও নিয়ন্ত্রিত কথ্য ভাষার (ফরমাল ওরাল স্পিচ) নমুনা যেমন সংসদের বক্তৃতা, সরকারি অনুষ্ঠানের প্রধান অতিথির ভাষণ, সেমিনারের কি-নোট/প্রধান বক্তার ভাষণ, সমাবর্তন বক্তৃতা, টিভি নিউজ (উপস্থাপক অংশ), আনুষ্ঠানিকভাবে গৃহীত সাক্ষাৎকার, টিভি টক শো, প্রাতিষ্ঠানিক সভার কথোপকথন প্রভৃতি। অপ্রাতিষ্ঠানিক স্বতস্ফূর্ত কথ্য ভাষার নমুনা যেমন, অনুমতিসহ কল সেন্টারের কথোপকথন, গবেষণার ফিল্ড রেকর্ডিং, টিভি সিরিয়াল স্ক্রিপ্ট, রাজনৈতিক নেতার বক্তব্য, টিভি নিউজ (প্রতিবেদক অংশ) ইত্যাদি। এছাড়াও অনলাইনে প্রকাশিত চলমান বাংলা টেক্সট সংগ্রহ করা হবে।(অনুমোদিত লাইসেন্স সাপেক্ষে)।