தரவுக்கணம்
தரவுக்கணம் அல்லது தரவுத் தொகுப்பு (Dataset) என்பது தரவுகளின் தொகுப்பு ஆகும். பொதுவாக ஒரு தரவுத்தளத்தில் அமைந்துள்ள அட்டவணையின் உள்ளடக்கத்தை குறிக்கும். அட்டவணையில் உள்ள ஒவ்வொரு பத்தியை(column) ஒரு குறிப்பிட்ட மாறி குறிக்கிறது, மற்றும் ஒவ்வொரு வரிசையும்(row) தரவில் உள்ள ஒரு குறிப்பிட்ட உறுப்பினரை ஒத்துள்ளது. தரவுக்கணம் என்பது தரவு பொருட்களின் தொகுப்பாகவும் கருதலாம். [1]
பண்புகள்
தொகுபொதுவாக நாம் தரவுக்கணத்தின் பண்புகளாக பின்வரும் மூன்றை குறிப்பிடலாம்:
பரிமாணம் (Dimensionality)
தொகுபரிமாணம் என்பது தரவுக்கணத்தில் உள்ள தரவுப் பொருள் எத்தனை இயற்பண்புகளை கொண்டுள்ளது என்பதை குறிக்கிறது.
ஸ்பார்சிட்டி (Sparsity)
தொகுஸ்பார்சிட்டி என்பது தரவுகளில் பூஜ்யம் இல்லாத மதிப்புக்களின் எண்ணிக்கையை குறிக்கும். இது குறிப்பிடத்தக்க வகையில் கணக்கிடுதல் நேரத்தையும் சேமிப்பையும் மிச்சப்படுத்துகிறது.
நுணுக்கம் (Resolution)
தொகுதரவுக்கணத்தின் நுணுக்கத்தை பொறுத்து தரவின் பண்புகள் வேறுபடும்.தரவுக்கணத்தின் நுணுக்கம் கரடுமுரடனதாக இருந்தால் தரவின் அமைப்பை அறிய முடியாது.
தரவுக்கனத்தின் வகைகள்
தொகுபொது பயன்பாட்டு தரவுக்கனங்கள்
தொகுபொது பயன்பாட்டு தரவுக்கனங்களின் தொகுப்புகள் பொதுவாக ஆராய்ச்சி நோக்கங்களுக்காகவும், கற்பதற்காகவும் இலவசமாக கிடைக்கும் தரவுக்கனங்கள் ஆகும்.
- ஐரிஸ் பூக்களின் தரவுக்கணம்(Iris_flower_data_set) - பல்மாறி தரவுக்கணம் [2]
- பூபா கல்லீரல் தரவுக்கணம்(Bupa Liver Dataset) [3]
மேற்கோள்கள்
தொகு- ↑ Introduction to Data Mining, Pang-Ning Tan | Vipin Kumar | Michel Steinbach, Pg. 22
- ↑ https://en.wikipedia.org/wiki/Iris_flower_data_set
- ↑ "காப்பகப்படுத்தப்பட்ட நகல்". Archived from the original on 2012-04-04. பார்க்கப்பட்ட நாள் 2013-11-22.