மொழித் தொகுப்பு

மொழித் தொகுப்பு அல்லது மொழிவழக்குத் தொகுப்பு (Corpus linguistics) என்பது ஒரு மொழியில் எழுத்து வழக்கிலும் பேச்சு வழக்கிலும் உள்ள சொற்றொடர்களையும் மொழிப் பயன்பாட்டையும் முறைப்படி தொகுத்து வைப்பதாகும். இது பல்வேறு இடங்களில் பல்வேறு மக்களால் பல்வேறு சூழல்களில் நிகழும் மொழி வழக்கைப் பதிவு செய்வதாகும். இவ்வகையான தொகுப்புகள் மொழியின் இயல்புகளையும், நடைமுறையில் நிகழும் இலக்கணம் முதலானவற்றையும் சொற்பொருளையும், சொற்களுக்கு இடையே நிகழும் அல்லது நிலவும் உறவுகளையும் ஆய்வு செய்யவும் அலசவும் மிகவும் பயனுடையதாக உள்ளன. மொழியியலில் இவ்வகையான மொழித் தொகுப்புகள் முக்கியமான ஒன்றாகக் கருதப்படுகின்றது. இதனை ஆங்கிலத்தில் கார்ப்பசு (corpus) என அழைக்கின்றனர்.

வரலாறு

ஆங்கில மொழிக்கான பிரௌன் தொகுப்பு என்னும் ஒரு மொழிவழக்குத் தொகுப்பை என்றி குச்சேராவும் நெல்சன் பிரான்சிசும் (Henry Kucera and Nelson Francis) ஆய்வு செய்து 1967 இல் ஓர் ஆய்வுக்கட்டுரை எழுதினார்கள். இதுவே மொழித்தொகுப்பு இயலின் துவக்கம். இந்த பிரௌன் தொகுப்பை அமெரிக்காவில் உள்ள ரோட்' ஐலண்டு என்னும் மாநிலத்தில் அமைந்துள்ள பிரௌன் பல்கலைக்கழத்தில் பணியாற்றிய என்றி குச்சேராவும் நெல்சன் பிரான்சிசும் உருவாக்கினார்கள். இவர்கள் 1961 இல் அமெரிக்காவில் அமெரிக்க ஆங்கிலத்தில் எழுதிய வெவ்வேறு படைப்புகள் 1000ஐத் தேர்ந்து அவற்றில் இருந்து ஒரு மில்லியன் சொற்கள் (1,014,312 சொற்கள்) அடங்கிய ஆங்கில மொழி வழக்குத் தொகுப்பு ஒன்றை உருவாக்கினார்கள். இவை 15 படைப்புவகையைச் (genres) சேர்ந்த படைப்புகளில் இருந்து பெற்றவை.

இதனைத் தொடர்ந்து பிறபல ஆங்கிலமொழித் தொகுப்புகள் வரத்தொடங்கின. பிரித்தானிய காலின்சு பதிப்பகத்தார் பிரித்தானிய, அமெரிக்க ஆத்திரேலிய வழக்குகளையும் உள்ளடக்கிய COBUILD அல்லது பாங்க் ஆவ் இங்கிலீசு (Bank of English) என்னும் தொக்குப்பை உருவாக்கி அதனடிப்படையில் ஆங்கிலத்தை வெளிநாட்டு மொழியாகப் பயிவோருக்கு ஏற்ற அகராதி ஒன்ரையும் படைத்தார்கள். சர்வே ஆவ் இங்கிலீசு யூசேச் (Survey of English Usage, இங்கிலீசு வழக்கு தொகுநோக்கு) என்னும் மொழித்தொகுப்பின் அடிப்படையில் ஆங்கில மொழியின் இலக்கணத்தை குவிர்க்கும் (Quirk) மற்றவர்களும் 1985 இல் வெளியிட்டதும் ஒரு மைல் கல் ^[1]. பிரௌன் தொகுப்பைப் போலவே பிரித்தானிய ஆங்கிலத்துக்கு லங்க்காசுட்டர்-ஆசுலோஒ-பெர்கென் தொகுப்பு (Lancaster-Oslo-Bergen Corpus) எனப்படும் எல்-ஓ-பி தொகுப்பும் (LOB Corpus), இந்திய ஆங்கிலத்துக்கு கோலாப்பூர் தொகுப்பும், நியூசிலாந்து ஆங்கிலத்துக்கு வெலிங்க்டன் தொகுப்பும், ஆத்திரேலிய ஆங்கிலத்துக்கு ஆத்திரேலியத் தொகுப்பும் என பல உருவாகின. பிரித்தானிய நாட்டகத்திய தொகுப்பு^[2](British National Corpus) என்னும் தொகுப்பில் 100 மில்லியன் சொற்களுக்கும் கூடுதலாக இருப்பதுடன் பேச்சு வழக்கும் ஒலிப்பதிவாக உள்ளது. இதே போல அமெரிக்க ஆங்கிலத்துக்கு கோக்கா (COCA) என்று அழைக்கப்படும் தற்கால அமெரிக்க ஆங்கில மொழித்தொகுப்பு^[3](Corpus of Contemporary American English) 400 மில்லியன் சொற்களுக்கு கூடுதலாக உள்ள ஒன்று. இப்பொழுது ஒரு பில்லியனுக்கும் கூடுதலான சொற்கள் அடங்கிய தொகுப்புகள் உள்ளன.

பிரான்சிய மொழிக்கு 1971 இல் துவக்கிய மான்ட்ட்ரியால் பிரான்சிய மொழித்திட்டம் (Montreal French Project)^[4], என்னும் திட்டத்தின்கீழ் ஒரு மில்லியன் சொற்கள் அடங்கிய பிரான்சிய மொழித் தொகுப்பும், அதனைப் பின்தொடர்ந்து அதனினும் பெரிய கனடிய பிரான்சிய பேச்சுமொழித் தொகுப்பொன்றை சானா பாலாக் (Shana Poplack) உருவாக்கினார்.^[5] இதே போல எசுப்பானிய மொழிக்கும் (100 மில்லியன் எசுப்பானிய மொழிச் சொற்கள் கொண்டது ^[6], போர்த்துகீசிய மொழிக்கும் (45 மில்லியன் சொற்கள் கொண்டது)^[7] இவ்வகையான மொழித்தொகுப்புகள் உள்ளன.

அடிக்குறிப்புகளும் மேற்கோள்களும்

↑ Quirk, R., Greenbaum, S., Leech, G. and Svartvik, J. A Comprehensive Grammar of the English Language London: Longman. 1985.
↑ பிரித்தானிய நாட்டகத்திய தொகுப்பு (British National Corpus)
↑ தற்கால அமெரிக்க ஆங்கில மொழித்தொகுப்பு (Corpus of Contemporary American English)
↑ Sankoff, D. & Sankoff, G. Sample survey methods and computer-assisted analysis in the study of grammatical variation. In Darnell R. (ed.) Canadian Languages in their Social Context Edmonton: Linguistic Research Incorporated. 1973. 7-64.
↑ Poplack, S. The care and handling of a mega-corpus. In Fasold, R. & Schiffrin D. (eds.) Language Change and Variation, Amsterdam: Benjamins. 1989. 411-451.
↑ 100 மில்லியன் எசுப்பானிய மொழிச்சொற்கள் கொண்ட மொழித்தொகுப்பு
↑ 45 மில்லியன் போர்த்துகீசிய மொழிச்சொற்கள் கொண்ட தொகுப்பு

வெளி இணைப்புகள்

AskOxford.com பரணிடப்பட்டது 2007-10-29 at the வந்தவழி இயந்திரம் the composition and use of the Oxford Corpus
Bookmarks for Corpus-based Linguists -- very comprehensive site with categorized and annotated links to language corpora, software, references, etc. பரணிடப்பட்டது 2010-07-02 at the வந்தவழி இயந்திரம்
Corpora discussion list
Freely-available, web-based corpora (100 million - 400 million words each): American (COCA), British (BNC), TIME, Spanish, Portuguese
Manuel Barbera's overview site
Przemek Kaszubski's list of references
DMCBC.com பரணிடப்பட்டது 2012-12-08 at Archive.today
Datum Multilanguage Corpora Based on chinese free sample download^{[தொடர்பிழந்த இணைப்பு]}
Corpus4u Community a Chinese online forum for corpus linguistics
McEnery and Wilson's Corpus Linguistics Page
Corpus Linguistics with R mailing list
Research and Development Unit for English Studies
Survey of English Usage
The Centre for Corpus Linguistics at Birmingham University
Gateway to Corpus Linguistics on the Internet பரணிடப்பட்டது 2006-06-22 at the வந்தவழி இயந்திரம்: an annotated guide to corpus resources on the web
Biomedical corpora பரணிடப்பட்டது 2006-09-20 at the வந்தவழி இயந்திரம்
Linguistic Data Consortium பரணிடப்பட்டது 2006-08-30 at the வந்தவழி இயந்திரம், a major distributor of corpora
Penn Parsed Corpora of Historical English
Corsis: (formerly Tenka Text) an open-source (GPLed) corpus analysis tool
ICECUP and Fuzzy Tree Fragments
Research and Development Unit for English Studies
Discussion group text mining பரணிடப்பட்டது 2007-09-28 at the வந்தவழி இயந்திரம்

[1] Quirk, R., Greenbaum, S., Leech, G. and Svartvik, J. A Comprehensive Grammar of the English Language London: Longman. 1985.

[2] பிரித்தானிய நாட்டகத்திய தொகுப்பு (British National Corpus)

[3] தற்கால அமெரிக்க ஆங்கில மொழித்தொகுப்பு (Corpus of Contemporary American English)

[4] Sankoff, D. & Sankoff, G. Sample survey methods and computer-assisted analysis in the study of grammatical variation. In Darnell R. (ed.) Canadian Languages in their Social Context Edmonton: Linguistic Research Incorporated. 1973. 7-64.

[5] Poplack, S. The care and handling of a mega-corpus. In Fasold, R. & Schiffrin D. (eds.) Language Change and Variation, Amsterdam: Benjamins. 1989. 411-451.

[6] 100 மில்லியன் எசுப்பானிய மொழிச்சொற்கள் கொண்ட மொழித்தொகுப்பு

[7] 45 மில்லியன் போர்த்துகீசிய மொழிச்சொற்கள் கொண்ட தொகுப்பு

[1]

[2]

[3]

[4]

[5]

[6]

[7]