ஒரு மொழியின் வளர்ச்சி என்பது வெறும் இலக்கியப் பெருமைகளைச் சார்ந்தது மட்டுமல்ல; அது காலத்திற்கேற்ற தொழில்நுட்ப மாற்றங்களைத் தழுவி, தன்னை நவீனப்படுத்திக்கொள்வதிலும் அடங்கியுள்ளது. தமிழ் மொழியின் டிஜிட்டல் பயணம், ஒரு சவாலான ஆரம்பப் புள்ளியில் தொடங்கி, இன்று செயற்கை நுண்ணறிவு வரை விரிந்து நிற்கிறது.
ஆரம்பகால சவால்கள்: ஒருங்குறியின் பங்கு
ஒரு காலத்தில், இயங்குதளம் (Operating System) முதல் இணையம் வரை, வன்பொருள் (Hardware) மற்றும் மென்பொருள் (Software) எனப் பல்வேறு நிலைகளிலும் தமிழ் எழுத்துருச் சிக்கல்கள் பெரிதாக இருந்தன. வெவ்வேறு எழுத்துருக்கள், வெவ்வேறு குறியீட்டு முறைகள் எனத் தமிழ்ப் பயன்பாடு பெரும் குழப்பத்தில் ஆழ்த்தப்பட்டது. இந்தச் சிக்கல்களுக்கு ஒருங்குறி (Unicode) ஒரு நல்ல தீர்வாக அமைந்தது. உலகளாவிய மொழிகளுக்கான தரப்படுத்தப்பட்ட குறியீட்டு முறையான ஒருங்குறி, தமிழ் எழுத்துக்களை எந்தக் கணினியிலும், எந்தச் சூழலிலும் சரியாகக் காண்பிப்பதற்கான வாயிலைத் திறந்துவிட்டது. இது தமிழ் மொழியை டிஜிட்டல் உலகில் நிலைநிறுத்துவதற்கான முதல் முக்கிய அடித்தளமாக அமைந்தது.
சொற்பிழை திருத்தி முதல் இலக்கணப் பிழை திருத்தி வரை
ஒருங்குறி தந்த தெளிவுக்குப் பிறகு, தமிழ் மொழியை கணினி மேலும் ஆழமாகப் புரிந்துகொள்வதற்கான அடுத்த கட்ட நகர்வுகள் தொடங்கின. இன்று, நாம் அன்றாடப் பயன்பாட்டில் பெரிதும் எதிர்பார்க்கும் சொற்பிழை திருத்தி (Spell Checker), சந்திப்பிழை திருத்தி (Sandhi Error Corrector), மற்றும் இலக்கணப் பிழை திருத்தி (Grammar Checker) போன்ற கருவிகள் கணிசமான வளர்ச்சியை அடைந்துள்ளன. இவை பிழைகளற்ற, தெளிவான தமிழ் எழுத்துருவை உறுதி செய்வதோடு, மொழிப் பயன்பாட்டின் தரத்தையும் மேம்படுத்துகின்றன. வட்டார வழக்கு பேச்சுப் பயிற்சிகளையும், அதன் நுட்பமான வேறுபாடுகளையும் கணினிக்குக் கற்பிக்கும் முயற்சியும் நடந்து வருகிறது.
செயற்கை நுண்ணறிவின் நுட்பங்கள் தமிழுக்கு
இன்று, தமிழ் மொழிக்கும் கணினிக்கும் இடையிலான உறவு வெறும் எழுத்துருச் சிக்கல் அல்லது பிழை திருத்தங்களைத் தாண்டி, ஆழமான நுண்ணறிவுப் பரிமாணத்தை எட்டியுள்ளது. எந்திர மொழிபெயர்ப்பு நுட்பங்கள் (Machine Translation Techniques) உலக அரங்கில் தமிழை எடுத்துச் சென்று, தகவல்தொடர்புப் பிளவுகளைக் குறைக்க உதவுகின்றன.
எழுத்துக்களைப் பேச்சாகவும் (Text-to-Speech), பேச்சை எழுத்தாகவும் (Speech-to-Text) மாற்றுதல் என்பது பார்வையற்றோர், வாசிப்புச் சிரமம் உள்ளோர் மற்றும் குழந்தைகளுக்கும் தொழில்நுட்பத்தை அணுக வழிவகுக்கிறது. பழைய ஆவணங்களை டிஜிட்டல் மயமாக்க உதவும் ஒளி எழுத்துணரி (OCR – Optical Character Recognition), தமிழ் ஆவணக் காப்பகங்களுக்குப் பெரும் உதவியாக உள்ளது.
இயற்கை மொழி ஆய்வு (Natural Language Processing – NLP) என்பது கணினிக்கு மனித மொழியின் நுணுக்கங்கள், அதன் உணர்வுகள், அதன் பொருள் தெளிவு ஆகியவற்றை அறியக் கற்றுக்கொடுக்கிறது. இந்தப் புரிதலின் பின்னணியில் இருப்பது செயற்கை நியுரல் கட்டமைப்புகள் (Artificial Neural Networks) மற்றும் ஆழக் கற்றல் (Deep Learning) போன்ற அதிநவீன செயற்கை நுண்ணறிவு நுட்பங்களாகும். இந்தத் தொழில்நுட்பங்களே மேற்கண்ட பல சாதனைகளுக்குப் பின்னணி சக்தியாக இருந்து, தமிழ் மொழி தரவுகளை ஆய்வு செய்து, புதிய மாதிரிகளை உருவாக்கப் பயன்படுத்தப்படுகின்றன.
வருங்காலச் சவால்களும் வாய்ப்புகளும்
வளர்ந்துவரும் ஒவ்வொரு நுட்பங்களுக்கும் ஏற்ப தமிழ் மொழியை நாம் தகவமைத்துக் கொள்ளவேண்டும். இது வெறும் தொழில்நுட்பக் கருவிகளைப் பயன்படுத்துவது மட்டுமல்ல; புதிய தொழில்நுட்பக் கருத்துகளைத் தமிழில் விவாதிக்கவும், கற்பிக்கவும், உருவாக்கவும் தேவையான கலைச்சொல் வளங்களை (Technical Vocabulary) உருவாக்கவேண்டும்.
மேலும், தமிழ் வழி நிரலாக்கம் (Tamil Programming) என்பது சராசரி மக்களின் பயன்பாட்டுக்கும் வரவேண்டும். அப்போதுதான் தொழில்நுட்பம் பற்றிய அச்சம் நீங்கி, தமிழ் பேசுவோர் அனைவரும் வெறும் பயனாளிகளாக இல்லாமல், தொழில்நுட்பப் படைப்பாளிகளாகவும் மாற முடியும்.
ஒருங்குறி தந்த ஆரம்பப் புள்ளியில் தொடங்கி, சொற்பிழை திருத்திகள் வழியாக மொழிப் பயன்பாட்டைத் துல்லியமாக்கி, இன்று செயற்கை நுண்ணறிவு, இயந்திரக் கற்றல் போன்ற ஆழமான நுட்பங்கள் வரை தமிழ் மொழி, தொழில்நுட்பத்தின் அத்தனை சாத்தியக்கூறுகளையும் தனதாக்கிக் கொள்ளும் முனைப்பில் உள்ளது. இந்த முயற்சிகள் தொடர்ந்தால், வருங்கால டிஜிட்டல் உலகில் தமிழ் தனித்து மிளிரும் என்பதில் ஐயமில்லை.