தரவுக்கணம்

தரவுக்கணம் அல்லது தரவுத் தொகுப்பு (Dataset) என்பது தரவுகளின் தொகுப்பு ஆகும். பொதுவாக ஒரு தரவுத்தளத்தில் அமைந்துள்ள அட்டவணையின் உள்ளடக்கத்தை குறிக்கும். அட்டவணையில் உள்ள ஒவ்வொரு பத்தியை(column) ஒரு குறிப்பிட்ட மாறி குறிக்கிறது, மற்றும் ஒவ்வொரு வரிசையும்(row) தரவில் உள்ள ஒரு குறிப்பிட்ட உறுப்பினரை ஒத்துள்ளது. தரவுக்கணம் என்பது தரவு பொருட்களின் தொகுப்பாகவும் கருதலாம். [1]

பண்புகள் தொகு

பொதுவாக நாம் தரவுக்கணத்தின் பண்புகளாக பின்வரும் மூன்றை குறிப்பிடலாம்:

பரிமாணம் (Dimensionality) தொகு

பரிமாணம் என்பது தரவுக்கணத்தில் உள்ள தரவுப் பொருள் எத்தனை இயற்பண்புகளை கொண்டுள்ளது என்பதை குறிக்கிறது.

ஸ்பார்சிட்டி (Sparsity) தொகு

ஸ்பார்சிட்டி என்பது தரவுகளில் பூஜ்யம் இல்லாத மதிப்புக்களின் எண்ணிக்கையை குறிக்கும். இது குறிப்பிடத்தக்க வகையில் கணக்கிடுதல் நேரத்தையும் சேமிப்பையும் மிச்சப்படுத்துகிறது.

நுணுக்கம் (Resolution) தொகு

தரவுக்கணத்தின் நுணுக்கத்தை பொறுத்து தரவின் பண்புகள் வேறுபடும்.தரவுக்கணத்தின் நுணுக்கம் கரடுமுரடனதாக இருந்தால் தரவின் அமைப்பை அறிய முடியாது.

தரவுக்கனத்தின் வகைகள் தொகு

பொது பயன்பாட்டு தரவுக்கனங்கள் தொகு

பொது பயன்பாட்டு தரவுக்கனங்களின் தொகுப்புகள் பொதுவாக ஆராய்ச்சி நோக்கங்களுக்காகவும், கற்பதற்காகவும் இலவசமாக கிடைக்கும் தரவுக்கனங்கள் ஆகும்.

மேற்கோள்கள் தொகு

  1. Introduction to Data Mining, Pang-Ning Tan | Vipin Kumar | Michel Steinbach, Pg. 22
  2. https://en.wikipedia.org/wiki/Iris_flower_data_set
  3. "காப்பகப்படுத்தப்பட்ட நகல்". Archived from the original on 2012-04-04. பார்க்கப்பட்ட நாள் 2013-11-22.
"https://ta.wikipedia.org/w/index.php?title=தரவுக்கணம்&oldid=3557367" இலிருந்து மீள்விக்கப்பட்டது