தமிழ் அனையெழுத்துக் குறியேற்றம்
இக்கட்டுரையின் தலைப்பு விக்கிப்பீடியாவின் பெயரிடல் மரபுக்கோ, கலைக்களஞ்சிய பெயரிடல் மரபுக்கோ ஒவ்வாததாக இருக்கலாம் இக்கட்டுரையின் தலைப்பினை பெயரிடல் மரபுக்கு ஏற்றவாறு மாற்றக் கோரப்பட்டுள்ளது. உங்கள் கருத்துக்களை உரையாடல் பக்கத்தில் தெரிவியுங்கள். |
தற்போது புழக்கத்தில் இருக்கும் ஒருங்குறியக் கூட்டமைப்பின் தமிழ் மொழி ஒருங்குறி குறியேற்றத்தினால், அதற்கு முன்பு இருந்த எழுத்துரு பிரச்சனைகள் தீர்ந்தன. ஆனால், தமிழ் மொழியின் மின் ஆளுமைக்கும், தமிழ்கணிமொழியியல் ஆய்வுக்கும், மென்பொருள் ஆளுமைக்கும் இது சிறந்ததாக இல்லை. இதனால், இதற்கு மாற்றாக பலவகையான ஆய்வுகளுக்குப் பின் தமிழ் அனையெழுத்துக் குறியேற்றம்(Tamil All Character Encoding scheme - TACE16) எனுமொரு புதிய குறியேற்றம் உருவாக்கப்பட்டது. இப்புதிய குறியேற்றம் பழைய குறியேற்றத்தின் அனைத்து சிக்கல்களையும் களைந்து உதவுகிறது. இதனால், தமிழ்க் கணிமைக்கு இக்குறியேற்றம் மிகவும் இன்றியமையாததாகும். இதனை ஏற்பதற்கு தமிழக அரசால் ஒரு சிறப்புக் குழு அமைக்கப்பட்டு, பின் பல்வேறு மறுவாய்வுகளுக்குப் பின் தமிழ் இணையப் பல்கலைக்கழகத்தால் தமிழக அரசிடம் இக்குறியேற்றம் பரிந்துரை செய்யப்பட்டது. கி.பி. 2010ஆம் ஆண்டு தமிழக அரசு இக்குறியேற்றத்தை ஏற்றுக்கொண்டது. பின்பு தமிழ் இணையப் பல்கலைக்கழகம், இதற்கான எழுத்துருக்களையும் விசைப்பலகையையும் உருவாக்கியது.
அமைவிடம்
தொகுஇதன்படி தமிழ் எழுத்துருக்கள் அனைத்தும், ஒருங்குறிய அனைத்தெழுத்து வரியுரு கட்டகத்தின் ( Universal Character Set) பல்மொழிஅடித்தளப் பகுதியில் (Basic Multilingual Plane) அமைந்துள்ளன.
மெய்யெழுத்துக்கள்→ உயிரெழுத்துக்கள் ↓ |
E10 | E18 | E1A | E1F | E20 | E21 | E22 | E23 | E24 | E25 | E26 | E27 | E28 | E29 | E2A | E2B | E2C | E2D | E2E | E2F | E30 | E31 | E32 | E33 | E34 | E35 | E36 | E37 | E38 | E39 | E3A | E3B | E3C | E3D | E3E | E3F |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | ௳ | ௦ | அரைக்கால் | ் | க் | ங் | ச் | ஞ் | ட் | ண் | த் | ந் | ப் | ம் | ய் | ர் | ல் | வ் | ழ் | ள் | ற் | ன் | ஜ் | ஶ் | ஷ் | ஸ் | ஹ் | க்ஷ் | ||||||||
1 | ௴ | ௧ | கால் | அ | க | ங | ச | ஞ | ட | ண | த | ந | ப | ம | ய | ர | ல | வ | ழ | ள | ற | ன | ஜ | ஶ | ஷ | ஸ | ஹ | க்ஷ | ||||||||
2 | ௵ | ௨ | அரை | ா | ஆ | கா | ஙா | சா | ஞா | டா | ணா | தா | நா | பா | மா | யா | ரா | லா | வா | ழா | ளா | றா | னா | ஜா | ஶா | ஷா | ஸா | ஹா | க்ஷா | |||||||
3 | ௶ | ௩ | முக்கால் | ி | இ | கி | ஙி | சி | ஞி | டி | ணி | தி | நி | பி | மி | யி | ரி | லி | வி | ழி | ளி | றி | னி | ஜி | ஶி | ஷி | ஸி | ஹி | க்ஷி | |||||||
4 | ௷ | ௪ | அரைவீசம் | ீ | ஈ | கீ | ஙீ | சீ | ஞீ | டீ | ணீ | தீ | நீ | பீ | மீ | யீ | ரீ | லீ | வீ | ழீ | ளீ | றீ | னீ | ஜீ | ஶீ | ஷீ | ஸீ | ஹீ | க்ஷீ | |||||||
5 | ௸ | ௫ | வீசம் | ு | உ | கு | ஙு | சு | ஞு | டு | ணு | து | நு | பு | மு | யு | ரு | லு | வு | ழு | ளு | று | னு | ஜு | ஶு | ஷு | ஸு | ஹு | க்ஷு | |||||||
6 | ௹ | ௬ | மூவீசம் | ூ | ஊ | கூ | ஙூ | சூ | ஞூ | டூ | ணூ | தூ | நூ | பூ | மூ | யூ | ரூ | லூ | வூ | ழூ | ளூ | றூ | னூ | ஜூ | ஶூ | ஷூ | ஸூ | ஹூ | க்ஷூ | |||||||
7 | ௺ | ௭ | அரைமா | ெ | எ | கெ | ஙெ | செ | ஞெ | டெ | ணெ | தெ | நெ | பெ | மெ | யெ | ரெ | லெ | வெ | ழெ | ளெ | றெ | னெ | ஜெ | ஶெ | ஷெ | ஸெ | ஹெ | க்ஷெ | |||||||
8 | பௌர்ணமி | ௮ | ஒருமா | ே | ஏ | கே | ஙே | சே | ஞே | டே | ணே | தே | நே | பே | மே | யே | ரே | லே | வே | ழே | ளே | றே | னே | ஜே | ஶே | ஷே | ஸே | ஹே | க்ஷே | |||||||
9 | அமாவாசை | ௯ | இரண்டுமா | ை | ஐ | கை | ஙை | சை | ஞை | டை | ணை | தை | நை | பை | மை | யை | ரை | லை | வை | ழை | ளை | றை | னை | ஜை | ஶை | ஷை | ஸை | ஹை | க்ஷை | |||||||
A | கார்த்திகை | ௰ | மும்மா | ொ | ஒ | கொ | ஙொ | சொ | ஞொ | டொ | ணொ | தொ | நொ | பொ | மொ | யொ | ரொ | லொ | வொ | ழொ | ளொ | றொ | னொ | ஜொ | ஶொ | ஷொ | ஸொ | ஹொ | க்ஷொ | |||||||
B | ராஜ | ௱ | நாலுமா | ோ | ஓ | கோ | ஙோ | சோ | ஞோ | டோ | ணோ | தோ | நோ | போ | மோ | யோ | ரோ | லோ | வோ | ழோ | ளோ | றோ | னோ | ஜோ | ஶோ | ஷோ | ஸோ | ஹோ | க்ஷோ | |||||||
C | ௐ | ௲ | முந்திரி | ௌ | ஔ | கௌ | ஙௌ | சௌ | ஞௌ | டௌ | ணௌ | தௌ | நௌ | பௌ | மௌ | யௌ | ரௌ | லௌ | வௌ | ழௌ | ளௌ | றௌ | னௌ | ஜௌ | ஶௌ | ஷௌ | ஸௌ | ஹௌ | க்ஷௌ | |||||||
D | அரைக்காணி | ஃ | ஸ்ரீ | |||||||||||||||||||||||||||||||||
E | காணி | |||||||||||||||||||||||||||||||||||
F | முக்காணி |
குறிப்பு: | |
---|---|
ஒருங்குறியக் கூட்டமைப்பின் தமிழ் ஒருங்குறி குறியேற்றத்தில்(v6.3) இல்லை | |
ஆய்வுகளுக்காக(NLP)ஒதுக்கப்பட்ட இடம் | |
எதிர்காலத்திற்காக ஒதுக்கப்பட்டுள்ளது |
தோற்றம்
தொகுதமிழில் தற்போது அதிகப்புழக்கத்தில் இருக்கும் ஒருங்குறியத்தமிழ் (Unicode thamizh) 8-பிட்டு கட்டகத்தை அடிப்படையாகக் கொண்டது. அது தமிழை 1999 ஆம் ஆண்டிலிருந்து, 10ஆண்டுகளாக ஒருங்குறிய (utf8)தமிழ் குறியீட்டமைப்பில் உள்ள குறைபாடுகளை, பல்வேறு நிலைகளில், பல்வேறு ஆய்வுகள் வழியாக தெளிவுபடுத்தி, இப்புதிய தமிழ் அனைத்து எழுத்துத் தரப்பாடு (TACE16) சிறப்பானதாக உருவாக்கப்பட்டுள்ளது.
காலக்கோடுகள்
தொகு- தமிழ் இணையம் 2001 மாநாட்டில், உத்தமத்தின் பணிக்குழு(WG02) ஒருங்குறியத்தமிழ் அமைப்பு தொடர்பான சிக்கல்களையும், தமிழ் அனைத்து எழுத்துக்குறியீட்டை, ஒருங்குறியதமிழுடன் சேர்ப்பது பற்றியும் கலந்தாய்வுசெய்து, 8-பிட்டு பயன்பாட்டைக் குறைத்து, 16-பிட்டு ஒருங்குறியத்தமிழ் எழுத்துருத் தரப்பாட்டினை உலகளவில் பயன்படுத்த வேண்டுமென முடிவு செய்தது.
- 2007 ஆம் ஆண்டு மே மாதம் கலிபோர்னியாவில் நடைபெற்ற ஒருங்குறியக் குழுமத்தின் தொழில்நுட்பக் குழுக் கூட்டத்தில், இந்த (TACE16) எழுத்துருக்களை, ஒருங்குறியத்தளத்தில் இடுவதற்கான வாய்ப்புகளைப் பற்றி கலந்தாய்வு செய்யப்பட்டது.
- ஒருங்குறியத்தமிழை,16-பிட்டு தமிழ்க்குறியீட்டுத் தரமாக தமிழக அரசு ஏற்பது தொடர்பாக சிறப்புக்குழு அமைக்கப்பட்டது.
ஆய்வுகள்
தொகுஒருங்குறிய குழுமத்தின் முடிவிற்கு சான்றுகள் தர, பின்வரும் தரங்கள் சோதிக்கப்பட்டன.
- உயிர் எழுத்துக்களையும், மெய்யெழுத்துக்களையும் மட்டும் கொண்ட தமிழ் எழுத்துரு தரம்(TAB, TAM)
- தற்போதுள்ள ஒருங்குறியதமிழ் தரம் (Unicode Tamil)
- அனைத்து எழுத்துகளையும் கொண்ட தமிழ் எழுத்துரு தரம் (TACE-16)
சோதனைகளின் முடிவு, தமிழ் ஒருங்குறிய அனைத்து எழுத்துரு தரப்பாடு(TACE-16) தான் சிறந்தது என உறுதி செய்தது. இம்முடிவுவை தில்லியில் நடுவண் அரசின் தகவல் தொழில்நுட்பத்துறை ஏற்பாடு செய்திருந்த அனைத்து மொழி அறிஞர்கள் கூட்டத்திலும், பிற வெளிநாட்டு அறிஞர்களும் கலந்தாய்வு செய்து ஏற்றனர்.
தேவை
தொகுகணினியிலும், இணையத்தமிழிலும் தமிழ் எழுத்துருக்களை உருவமைத்து ஆவணங்களை வடிவமைத்தல், இணையத்தளங்களை அமைத்தல், மின்னஞ்சல் அனுப்புதல் போன்றவை மட்டுமே தமிழ்க் கணிமை அன்று. தமிழ் மொழிச் செயலாக்கம் (Natural Language Processing), நூல்களைப் பதிப்பித்தல், தமிழ்க்கணினி செயலியக்க மென்பொருள்கள் உருவாக்கல், தமிழ்க்கணினி மொழிகள் வடிவமைத்தல், சட்டச்சிக்கல் இல்லா மின்ஆவணங்களை உருவாக்கல் போன்ற பலவற்றிற்கு இப்புதிய 16-பிட்டு குறியீட்டுத் தரத்தை ஏற்பதே சிறப்பாகும்.
வேறுபாடுகளும், சிறப்புகளும்
தொகுஒருங்குறியத்தமிழ் | ஒருங்குறிய அனைத்து எழுத்துரு தரப்பாடு(TACE-16) |
---|---|
85% தமிழ் எழுத்துக்களுக்கு இடமில்லை. | 100% தமிழ் எழுத்துக்களுக்கும் இடமுண்டு |
பிற எழுத்துக்களைப் பெற, தனியொரு இடைமென்பொருள் தேவை | அத்தகைய இடைமென்பொருள் தேவையில்லை என்பதால், கணினியின் செயற்திறன் ஓங்கும். |
கட்டளைகள், இரண்டாம்தர நிலை செயற்பாட்டில் (Level - 2 Implementation) தான் செயற்படும். | கட்டளைகள், முதல்தர நிலைச் செயற்பாட்டிலேயே (Level - 1 Implementation) செயற்படும். |
தரவுத்தேக்கமும், செயற்பாட்டு நேரமும் 40%அதிகம். | தரவுத்தேக்கமும், செயற்பாட்டு நேரமும் வெகுக்குறைவு. |
ISCII-1988 தரத்தை அடிப்படையாகக் கொண்டது. அதில் தமிழ் எழுத்துக்கள் இயற்கையான அகரவரிசையில் இல்லை. எனவே, அகரவரிசைப்படுத்த ஒத்திணைப்பு மென்பொருள்(collection Algorithm) தனியாகத்தேவை. | அகரவரிசையில் அமைந்துள்ளமையால், ஒத்திணைப்பு மென்மியம் தேவையில்லை. |
ஒரு உயிர்மெய் எழுத்தை உருவாக்க, 2,3புள்ளிகள் தேவை. அதனால் பாதுகாப்புச் சிக்கல்களும்(security vulnerabilities), பொருள் மயக்கச்சேர்க்கையையும்(ambiguous combination) உண்டாகின்றன. இவற்றைச் சரிசெய்ய இயல்பாக்க மென்மியம் தேவை. | அத்தகையப் பாதுகாப்புச் சிக்கல்களும், பொருள்மயக்கச்சேர்க்கையையும் உண்டாவது இல்லை. அதனால் இயல்பாக்க மென்மியம் தேவையில்லை. |
எழுத்துக்கள் பிரியாமல் இருக்கவும் அல்லது பிரிந்து இருக்கவும் கணினிக்கு கூடுதல் பணிச்சுமை ஏற்படுகிறது.(zero - width joiner/ zero - width non-joiner) | அத்தகையப் பணிச்சுமை ஏற்படுவதில்லை. |
தவறான எழுத்துக்கள் உருவாக்கப்படாமல் இருக்க, விலக்கெழுத்து அட்டவணை தேவை. | விலக்கெழுத்து அட்டவணை தேவையில்லை. |
தகவற்பரிமாற்றத்திற்கு மட்டுமே உதவும். | தகவற்பரிமாற்றத்திற்கும், இன்னும்பிற மேம்பட்ட தமிழ்கணிமை ஆய்வுக்கும் , வளர்ச்சிக்கும் இன்றியமையாதது ஆகும். |
ஒருங்குறியச்சேர்த்திய விதிகளின் படி, எழுத்துக்கள்(characters)மட்டுமே குறியிடப்படல் வேண்டும். வரிவரைவுகள் (glyphs) குறியிடப்படக்கூடாது. எனவே, தற்போதுள்ள இந்த ஒருங்குறியத்தமிழ் ஒருங்குறியக்கூட்டமைப்பின் கோட்பாடுகளுக்கு முரணானது. | வரிவுரைவுகளோ அல்லது துணைக்குறியீடுகளோ உருவாவது இல்லை. அனைத்து எழுத்துக்களுக்கும் தனியிடம் கொடுக்கப்பட்டுள்ளது. |
கோப்பைகளை சேமிப்பதில் அதிக இடம் தேவைப்படும் | கோப்பைகளை ஒருங்குறி தமிழ் குறியேற்றத்தை விட குறைந்த இடத்தைக் கொண்டு சேமிக்க முடியும். |
அதிக இணைய தகவல் பரிமாற்ற தேவை | ஒருங்குறி தமிழ் குறியேற்றத்தை விட குறைந்த இணைய தகவல் பரிமாற்றமே தேவை. |
இந்த ஒருங்குறியத்தமிழ், பல இயக்கமென்மியங்களில் சரிவர செயற்படுவதில்லை. | இயக்கமென்மியங்களில் (system softwares) சரிவர செயற்படும். |
தமிழ்க் கணிமை சிறப்புகள்
தொகுஉயிரெழுத்து மற்றும் மெய்யெழுத்திலிருந்து உயிர்மெய்யெழுத்து எளிதாகப் பெறமுடியும். உயிரெழுத்து மற்றும் மெய்யெழுத்து ஆகிய குறியேற்றங்களைக் கூட்டி, அதிலிருந்து E200 எனும் எண்ணைக் கழித்தால் உயிர்மெய்யெழுத்தின் குறியேற்றம் கிடைத்துவிடும்.
வழிமுறை 1:
க் + இ = கி E210(க்) + E203(இ) = 1C413 1C413 - E200 = E213(கி)
வழிமுறை 2:
க்(E210) + இ(E203) = கி(E213) E210(க்) | ( E203(இ) & 000F ) = E213(கி)
கணிமையில் முதல் வழியைவிட இரண்டாம் வழி மிகவும் வேகமானது.
உயிர்மெய்யெழுத்திலிருந்து அதன் உயிரெழுத்து மற்றும் மெய்யெழுத்தை குறைந்த கணினி செயல்திறன் மற்றும் குறைந்த கணினி முதன்மை சேமிப்பகம்(RAM) மூலம் எளிதாகப் பெறமுடியும்.
E213(கி) & F20F = E203(இ) E213(கி) & FFF0 = E210(க்)
வெளியிணைப்புகள்
தொகு- இது குறித்த தமிழ் அறிக்கை
- இது குறித்த ஆங்கில அறிக்கை
- தமிழக இணையக் கல்விக்கழக இணையத்தள பதிவிறக்கப்பக்கம் (தமிழக அரசாணை, எழுத்துருக்கள்)