தரவு அகழ்தல்
தரவு அகழ்தல் (Data mining) என்பது எந்திரக் கற்றல், புள்ளியியல், தரவுத்தளம் ஆகிய அமைப்புகளின் குறுக்குவெட்டில் உள்ள முறைகளை உள்ளடக்கிய பெரிய தரவுத் தொகுப்புகளில் உள்ள பாணிகளைப் பிரித்தெடுத்துக் கண்டுபிடிக்கும் செயல்முறையாகும். தரவு அகழ்தல், எந்திர கற்றல், புள்ளியியல், தரவுத்தள அமைப்புகளை அமைக்கிறது[1] தரவு அகழ்தல் என்பது கணினி அறிவியல், புள்ளியியலின் ஓர் இடைநிலை துணைத் துறையாகும் , இது தரவுத் தொகுப்பிலிருந்து தகவல்களைப் பிரித்தெடுப்பதற்கும் , மேலும் பயன்படுத்த தகவல்களை புரிந்துகொள்ளக்கூடிய கட்டமைப்பாக மாற்றுவதற்குமான ஒட்டுமொத்த குறிக்கோளுடன் செயல்படுகிறது.[1][2][3][4] தரவு அகழ்தல் என்பது தரவுத்தளங்களில் அறிவு கண்டுபிடிப்பு செயல்முறை அல்லது அதன் பகுப்பாய்வுப் படியாகும். [5] மூலப் பகுப்பாய்வுப் படிகளைத் தவிர , தரவுத்தள, தரவு மேலாண்மையின் கூறுகள், தரவு முன் செயலாக்கம், படிமம், உய்த்துணர்வுக் கருதல்கள், சுவைமை அளவுகள், சிக்கலான கருதல்கள், கண்டுபிடிக்கப்பட்ட கட்டமைப்புகளின் பிந்தைய செயலாக்கம், காட்சிப்படுத்தல், இணையப் புதுப்பித்தல் போன்றவற்றை உள்ளடக்கியது -. [1]
" தரவு அகழ்தல் " என்ற சொல் ஒரு தவறான பெயராகும் , ஏனெனில் இதன் குறிக்கோள் பெரிய அளவிலான தரவுகளிலிருந்து பாணிகளையும் அறிவையும் பிரித்தெடுப்பதே தவிர , தரவைப் பிரித்தெடுப்பது அல்ல. இது ஒரு முதன்மைச் சொல்லாகும். மேலும் இது எந்தவொரு பெரிய அளவிலான தரவு அல்லது தகவல் செயலாக்கத்திற்கும் ( திரட்டல், தேக்கல், பகுப்பாய்வு, புள்ளியியல்) மேலும், செயற்கை நுண்ணறிவு (எ. கா. இயந்திர கற்றல், வணிக நுண்ணறிவு) உள்ளிட்ட கணினி முடிவு ஏற்பு அமைப்பின் எந்தவொரு பயன்பாட்டிற்கும் அடிக்கடி பயன்படுத்தப்படுகிறது.[6] (இது பெரும்பாலும் எந்திரக் கற்றல் பொருட்களை உள்ளடக்கியது) இது நடைமுறை எந்திரக் கற்றல் என்ற புத்தகம் முதலில் வெளிவந்ததும் பெயரிடப்பட்டது. தரவு அகழ்தல் என்ற சொல் சந்தைப்படுத்தல் காரணங்களுக்காக மட்டுமே சேர்க்கப்பட்டது. [7] பெரிய அளவிலான தரவு பகுப்பாய்வு அல்லது உண்மையான முறைகளைக் குறிப்பிடும்போது, செயற்கை நுண்ணறிவு, எந்திர கற்றல் ஆகியனவே மிகவும் பொருத்தமானவை.
உண்மையான தரவு அகழ்தல் பணி என்பது , முன்னர் அறியப்படாத தரவுக் குழுக்கள் (கொத்துப் பகுப்பாய்வு), இயல்பற்ற, பதிவுகள் (ஒழுங்கின்மை கண்டறிதல்), சார்புகள் (இணைவு விதி) போன்ற சுவையான பணிகளைப் பிரித்தெடுக்க, பேரளவிலான தரவுகளின் அரைத் தானியங்கி அல்லது தானியங்கி பகுப்பாய்வு ஆகும். இது பொதுவாக இடஞ்சார்ந்த சுட்டுகள் போன்ற தரவுத்தள நுட்பங்களைப் பயன்படுத்துவதை உள்ளடக்கியது. இந்தப் பாணிகள் பின்னர் உள்ளீட்டு தரவுகளின் சுருக்கமாகப் பார்க்கப்படலாம். மேலும் பகுப்பாய்வில் பயன்படுத்தப்படலாம். அல்லது எடுத்துக்காட்டாக எந்திர கற்றல், முன்கணிப்புப் பகுப்பாய்வுகளில் பயன்படுத்தப்படலாம். எடுத்துக்காட்டாக , தரவு அகழ்தல் நடவடிக்கை தரவுகளில் பல குழுக்களை அடையாளம் காணலாம் , பின்னர் அவை ஒரு முடிவலேற்பு அமைப்பு வழி மிகவும் துல்லியமான முன்கணிப்பு முடிவுகளைப் பெற பயன்படுத்தப்படலாம். தரவு திரட்டலோ தரவு ஆயத்தமோ அல்லது முடிவோ , விளக்கமோ அறிக்கையோ தரவு அகழ்தல் நடவடிக்கையின் ஒரு பகுதியல்ல. இருப்பினும் அவை கூடுதல் படிகளாக ஒட்டுமொத்த KDD செயல்முறையைச் சேர்ந்தவை.
தரவு பகுப்பாய்விற்கும் தரவு அகழ்வுக்கும் உள்ள வேறுபாடு என்னவென்றால் , தரவு பகுப்பாய்வில் படிமங்கள், கருதுகோள்களைச் சோதிக்க தரவு பகுப்பாய்வு பயன்படுத்தப்படுகிறது. எ. கா. தரவுகளின் அளவைப் பொருட்படுத்தாமல் சந்தைப்படுத்தல் பரப்புரையின் செயல்திறனைப் பகுப்பாய்வு செய்கிறது. இதற்கு மாறாக , தரவு அகழ்தல் எந்திரக் கற்றல், புள்ளியியல் படிமங்களைப் பயன்படுத்தி பேரளவிலான தரவுகளில் இரகசியமாக உள்ள அல்லது மறைக்கப்பட்ட பாணிகளைக் கண்டறிகிறது.[8]
தரவு உளவும் தரவு உள்விவரிப்பும் இரண்டுமே பெரிய மக்கள்தொகை தரவுத் தொகுப்பின் பகுதிகளைப் படிமமாக்கத்துக்குப் பயன்படும் தரவு அகழ்தல் முறைகளைப் பயன்படுத்துவதையே குறிக்கின்றன ( இவை கண்டுபிடிக்கப்பட்ட எந்தவொரு பாணிகளின் செல்லுபடியாகும் தன்மை பற்றியும் நம்பகமான புள்ளியியல் உய்த்துணர்வுகள் செய்யப்படுவதற்கு மிகவும் சிறிய அளவில் பயன்படுத்தலாம்). தரவு அகழாய்வு, தரவு மீன்பிடி, தரவு உளவு இருப்பினும் , இந்த முறைகள் பெருந்தரவு மக்கள்தொகைக்கான பெருந்தரவுச் செய்முறைகளைச் செய்ய, புதிய கருதுகோள்களை உருவாக்குவதில் பயன்படலாம்.
சொற்பிறப்பியல்
தொகு1960களில் புள்ளியியலாளர்களும் பொருளியல் வல்லுனர்களும் தரவு மீன்பிடித்தல்(data fishing) அல்லது தரவு அகழ்தல்(data dredging) போன்ற சொற்களைப் பயன்படுத்தினர். அவை எந்த ஒரு முன்னுரிமைக் கருதுகோளும் இல்லாமல் தரவைப் பகுப்பாய்வு செய்வதற்கான மிகத் தாழ்ந்த நடைமுறையைக் குறித்தன. ஒரு முன்னுரிமையோடு 1983 ஆம் ஆண்டில் பொருளியல் ஆய்வுகளின் மதிப்பாய்வு இதழில் வெளியிடப்பட்ட ஒரு கட்டுரையில் பொருளியலாளர்ர் மைக்கேல் உலோவெல் இதேபோன்ற திறனாய்வு வழியில் " தரவு அகழ்தல்(data mining) " என்ற சொல்லைப் பயன்படுத்தினார். [9] இந்த நடைமுறைச் செய்முறை " (நேர்முகம்) முதல் " மீன்பிடித்தல் " அல்லது " ஸ்னூபிங் " (எதிர்மறை) வரை பல்வேறு மாற்றுப்பெயர்களில் " முகமூடி அணிந்துள்ளது " என்று உலோவெல் குறிப்பிடுகிறார்.
தரவு அகழ்தல் என்ற சொல் 1990 ஆம் ஆண்டில் தரவுத்தளச் சமூகத்தில் பொதுவாக நேர்முகப் பொருளுடன் தோன்றியது. தரவு அகழ்தல் 1980களில் ஒரு குறுகிய காலத்திற்கு " தரவுத்தலகழ்தல் " என்ற சொற்றொடர் பயன்படுத்தப்பட்டது , ஆனால் இது சான் டியாகோவை தளமாகக் கொண்ட ஒரு நிறுவனத்தால் தங்கள் தரவுத்தள அகழ்தல் சார்ந்த பணிநிலையத்தை முன்வைத்ததும் வணிக முத்திரை குத்தப்பட்டதால் , ஆராய்ச்சியாளர்கள் அதன் விளைவாக தரவு அகழ்தலுக்கு மாறினர். சான் டியாகோவின் தரவு அகழ்தல்[10] சார்ந்து பயன்பட்ட பிற சொற்களில் தரவுத் தொல்லியல், தகவல் அறுவடை, தகவல் கண்டுபிடிப்பு, அறிவு பிரித்தெடுத்தல் போன்றவை அடங்கும் கிரிகோரி பியாடெட்சுகி - சாபிரோ அதே தலைப்பிலான முதல் பட்டறைக்கு (கேடிடி - 1989) தரவுத்தளங்களில் அறிவு கண்டுபிடிப்பு என்ற சொல்லை உருவாக்கிப் பயன்படுத்தினார் , மேலும் இந்த சொல் செயற்கை நுண்ணறிவு, எந்திரக் கற்றல் சமூகங்களில் மிகவும் பரவலானது. இருப்பினும் , தரவு அகழ்தல் என்ற சொல் வணிக, ஊடகச் சமூகங்களில் மிகவும் புகழடைந்தது.[11] தற்போது தரவு அகழ்தல், அறிவுக் கண்டுபிடிப்பு என்ற சொற்கள் ஒன்றுக்கொன்று மாற்றாகப் பயன்படுத்தப்படுகின்றன.
பின்புலம்
தொகுதரவுகளிலிருந்து பாணிகளைக் கையால் பிரித்தெடுப்பது பல நூற்றாண்டுகளாக நிகழ்ந்துவந்தது. தரவுகளில் உள்ள பாணிகளை அடையாளம் காணும் தொடக்கநிலை முறைகளில் பாயேசு தேற்றம் (1700 களில்) பின்னேகும் பகுப்பாய்வு (1800 களில்) ஆகியவை அடங்கும்[12] கணினி தொழில்நுட்பத்தின் பெருக்கமும் அதன் உயர்ந்து வரும் திறனும் தரவு திரட்டல் , தேக்குதல், கையாளுதல் திறனை வியத்தகு முறையில் உய்ர்த்தின. தரவுத் தொகுப்புகள் அளவோடு சிக்கலான தன்மையிலும் வளர்ந்துள்ளதால் , நேரடியான கையால் செய்யும் தரவு பகுப்பாய்வு பெருகியதால், மறைமுகத் தானியங்கி தரவுச் செயலாக்கத்துக்கு வழிவிட்டது. இதற்குக் கணினி அறிவியலில் உள்ள பிற கண்டுபிடிப்புகளும் உதவுகின்றன. குறிப்பாக, எந்திரக் கற்றல் துறையில் நரம்பியல் வலைப்பிணையங்கள் , கொத்துப் பகுப்பாய்வு , மரபணு வழிமுறைகள் (1950 கள்), முடிவெடுத்தல் மரங்கள், முடிவெடுத்தல் விதிகள் (1960 கள்) ஏற்பு திசையன் எந்திரங்கள் போன்றவை. உதவுகின்றன. தரவு அகழ்தல் என்பது மறைக்கப்பட்ட பாணிகளைக் கண்டுபிடிக்கும் நோக்கத்துடன் இந்த முறைகளைப் பயன்படுத்தும் செயல்முறையாகும்.[13] பேரளவுத் தரவுத் தொகுப்புகளில். இது பயன்பாட்டு புள்ளியியல், செயற்கை நுண்ணறிவு ஆகியவற்றிலிருந்தான இடைவெளியைக் குறைக்கிறது (இது பொதுவாக தரவுத்தளங்களில் தரவு தேக்கப்பட்டு குறியிடப்பட்ட விதத்தை பயன்படுத்தி உண்மையான கற்றல், கண்டுபிடிப்பு வழிமுறைகளை மிகவும் திறமையாக செயல்படுத்துவதால் தரவுத்தளம் கையாளலுக்கு மிகவும் உதவுகிற கணிதப் பின்புலத்தை வழங்குகிறது).
அறிவுகாண் செயல்முறை
தொகுதரவுத்தளங்களில் அறிவுக் கண்டுபிடிப்பு (KDD)செயல்முறை பொதுவாக பின்வரும் கட்டங்களால் வரையறுக்கப்படுகிறது.
- தேர்வு
- முன்செயலாக்கம்
- உருமாற்றம்
- தரவு அகழ்தல்
- விளக்கம் / மதிப்பீடு.[5]
இருப்பினும் , தரவு அகழ்தலுக்கான குறுக்குத் தொழில் செந்தரச் செயல்முறை, அதாவது CRISP முறைத் தரவு .அகழ்வு போன்ற கருப்பொருளில் பல வேறுபாடுகளில் அமைகிறது. இது கீழ்வரும் ஆறு கட்டங்களை வரையறுக்கிறது.
- வணிகப் புரிதல்
- தரவுப் புரிதல்
- தரவு ஆயத்தம்
- படிமமாக்கம்
- மதிப்பீடு
- செயற்படுத்தல்
அல்லது (1) முன்செயலாக்கம் (2) தரவகழ்தல் (3) முடிவுகள் சரிபார்ப்பு போன்ற எளிய முக்கட்டச் செயல்முறை பயனில் உள்ளது.
2002, 2004, 2007, 2014 ஆம் ஆண்டுகளில் நடத்தப்பட்ட கருத்துக்கணிப்புகள் , CRISP - DM முறை என்பது தரவகழ்தல் வல்லுனர்களால் பயன்படுத்தப்படும் முன்னணி முறையாக ஏற்றம் கண்டது என்பதைக் காட்டுகின்றன. இந்த வாக்கெடுப்புகளில் பெயரிடப்பட்ட மற்ற தரவு அகழ்தல் செந்தரம் செம்மா மட்டுமே. செம்மா இருப்பினும் , 3 முதல் 4 மடங்கு மக்கள் CRISP முறைத் தரவு அகழ்தலைப் பயன்படுத்துவதாக தெரிவித்தனர். பல ஆராய்ச்சியாளர்களும் குழுக்களும் தரவு அகழ்தல் செயல்முறைப் படிமங்கள் பற்றிய மதிப்பீடுகளை வெளியிட்டுள்ளன , மேலும் அஜெவெடோ, சாண்டோசு, CRISP - DM, SEMMA ஆகியவற்றை 2008 ஆம் ஆண்டில் பலர் ஒப்பிட்டனர்.[14][15]
முன் செயலாக்கம்
தொகுதரவு அகழ்தல் வழிமுறைகளைப் பயன்படுத்துவதற்கு முன், ஒரு இலக்கு தரவுத் தொகுப்பு ஒன்று திரட்டப்பட வேண்டும். தரவு அகழ்தலால் தரவுகளில் உண்மையில் இருக்கும் பாணிகளை மட்டுமே கண்டுபிடிக்க முடியும் என்பதால் , இலக்கு தரவுத் தொகுப்பு இந்த பாணிகளைக் கொண்டிருக்க போதுமான அளவு பெரியதாக இருக்க வேண்டும். அதேவேளையில் ஏற்றுக்கொள்ளக்கூடிய கால வரம்பிற்குள் அகழப்படும் அளவுக்கு சுருக்கமாகவும் இருக்க வேண்டும். தரவுகளுக்கான பொதுவான ஏற்பு தரவு சந்தை அல்லது தரவுக் கிடங்கு ஆகும். தரவு அகழ்தலுக்கு முன் பல்வகை தரவுத் தொகுப்புகளை பகுப்பாய்வு செய்ய முன் செயலாக்கம் தேவையாகும். பன்முகத்தன்மை கொண்டவை. பின்னர் இலக்கு தொகுப்பு சீர் செய்யப்படுகிறது. தரவுச்சீர்செய்தல் நோக்கீடுகள் தரவு சாராதவற்றை நீக்குகிறது.
தரவு அகழ்தல்
தொகுதரவு அகழ்தலில் பின்வரும்ஆறு பொதுவான வகைப் பணிகள் அடங்கும்.[5]
- ஒழுங்கின்மை கண்டறிதல் (விளிம்பு/மாற்றம்/விலக்கம் காணல்): இது இயல்பற்ற தரவுப் பதிவுகளை அடையாளம் காணல் ஆகும். அவை சுவையானனதாக இருக்கலாம் அல்லது தரவு பிழைகள் நிலையான வரம்பிற்கு வெளியே இருப்பதால் மேலும் புலனாய்வு தேவைப்படுகிறது.
- இணைவு விதி கற்றல் (சார்பு படிமமாக்கம், மாறிகளுக்கு இடையிலான உறவுகளுக்கான தேடல்கள். இணைவு விதிகள் கற்றல்): :எடுத்துக்காட்டாக , ஒரு பல்பொருள் அங்காடி வாடிக்கையாளர் வாங்கும் பழக்கம் குறித்த தரவுகளைத் திரட்டலாம். இணைவு விதிகள் கற்றல் முறையைப் பயன்படுத்தி , எந்தெந்த பொருட்கள் அடிக்கடி இணைந்து வாங்கப்படுகின்றன என்பதை பல்பொருள் அங்காடி தீர்மானிக்க முடியும். மேலும் இந்தத் தகவலைச் சந்தைப்படுத்தல் நோக்கங்களுக்காகப் பயன்படுத்தலாம். இது சிலவேளைகளில் சந்தைக் கூடை பகுப்பாய்வு என்று குறிப்பிடப்படுகிறது.
- கொத்தாக்கம்: இது என்பது தரவுகளில் அறியப்பட்ட கட்டமைப்புகளைப் பயன்படுத்தாமல் மாறாக ஏதோ வேறொரு வழியில் தரவுகளில் உள்ள குழுக்களையும் கட்டமைப்புகளையும் கண்டுபிடிக்கும் பணியாகும்.
- வகைப்படுத்தல்: இது புதிய தரவுகளுக்கு பொருந்தும், அறியப்பட்ட கட்டமைப்பைப் பொதுமைப்படுத்தும் பணி ஆகும். வகைப்பாட்டுக்கு எடுத்துக்காட்டாக , ஒரு மின்னஞ்சல் நிரல் ஒரு மின்னஞ்சலை " நேரானது " அல்லது " வீண் " என வகைப்படுத்த முயற்சிக்கலாம்.
- பின்னேகும் தரவு: இது தரவுத்தொகுப்புகளுக்கிடையேயான உறவுகளை மதிப்பிடுவதற்கான குறைந்தநிலைப் பிழையுடன் தரவை படிமமாக்கும் ஒரு செயல்பாட்டைக் கண்டறிய முயற்சிக்கிறது.
- சுருக்கக் காட்சிப்படுத்தல்: இது அறிக்கை உருவாக்கம் உள்ளிட்ட தரவு தொகுப்பின் மிகவும் கச்சிதமான உருவகத்தை வழங்குகிறது.
முடிவுகள் சரிபார்ப்பு
தொகுதரவு அகழ்தல் முறை தற்செயலாக தவறாகப் பயன்படுத்தப்படலாம். குறிப்பிடத்தக்கதாகத் தோன்றும், ஆனால் எதிர்கால நடத்தையை உண்மையில் கணிக்கமுடியாத, தரவுகளின் புதிய படிமத்தில் மீண்டும் உருவாக்க முடியாத முடிவுகளைத் தரலாம் எனவே சிறிய பயன்பாட்டைக் கொண்டு. மறுஉருவாக்கம் செய்யப்படும். இது சிலவேளைகளில் பல கருதுகோள்களை ஆராய்ந்து சரியான புள்ளியியல் கருதுகோள் செய்முறையைச் செய்யாததால் ஏற்படுகிறது. புள்ளியியல் கருதுகோள் செய்முறை எந்திரக் கற்றலில் இந்த சிக்கலின் எளிய பதிப்பு மிகைப்பொருத்தல் என்று அழைக்கப்படுகிறது , ஆனால் அதே சிக்கல் செயல்முறையின் வெவ்வேறு கட்டங்களிலும் கூட எழலாம். இதனால் ஒரு தொடருந்து / செய்முறைப் பிளவு பொருந்தும்போது, இது நடப்பதைத் தடுக்க போதுமானதாக இருக்காது.[16]
தரவுகளிலிருந்து அறிவு கண்டுபிடிப்பின் இறுதி கட்டம் , தரவுச் சுரங்க வழிமுறைகளால் உற்பத்தி செய்யப்படும் பாணிகள் பரந்த தரவுத் தொகுப்பில் நிகழ்கின்றனவா என்பதைச் சரிபார்க்க வேண்டும். வழிமுறைகளால் கண்டறியப்பட்ட அனைத்து வடிவங்களும் செல்லுபடியாக வேண்டிய கட்டாயமில்லை. தரவுச் சுரங்க வழிமுறைகள் பொதுவான தரவுத் தொகுப்பில் இல்லாத பாணிகளைப் பயிற்சி தொகுப்பில் கண்டுபிடிப்பது பொதுவானது. இது மிகைப்பொருத்தல் என்று அழைக்கப்படுகிறது. இதை மேலாள மதிப்பீட்டு தரவு அகழ்தல் வழிமுறைக்குப் பயிற்சி அளிக்கப்படாத தரவுகளின் செய்முறைத் தொகுப்பைப் பயன்படுத்துகிறது. செய்முறைத் தொகுப்பு கற்ற பாணிகள் இந்தச் செய்முறைகட்குப் பயன்படுத்தப்படுகின்றன.இதன் விளைவாக வரும் வெளியீடு விரும்பிய வெளியீட்டுடன் ஒப்பிடப்படுகிறது. எடுத்துக்காட்டாக, மின்னஞ்சல்களின் பயிற்சி தொகுப்பில் பயிற்சி அளிக்கப்படும் " வீண் " மற்றும் " சட்டவியலான " மின்னஞ்சல்களை வேறுபடுத்த முயற்சிக்கும் தரவு அகழ்தல் வழிமுறைப் படிமம். பயிற்சித் தொகுப்பு ஒருமுறை பயிற்சி பெற்ற பிறகு கற்ற பாணிகள் அது பயிற்சி பெறாத மின்னஞ்சல்களின் செய்முறைத் தொகுப்பிற்குப் பயிற்சிதரப் பயன்படுத்தப்படும். பாணிகளின் துல்லியத்தை அவை எத்தனை மின்னஞ்சல்களை சரியாக வகைப்படுத்துகின்றன என்பதிலிருந்து அளவிட முடியும். ROC வளைவுகள் போன்ற வழிமுறையை மதிப்பிடுவதற்கு பல புள்ளயியல் முறைகள் பயன்படுத்தப்படலாம்.
கற்ற பாணிகள் விரும்பிய செந்தரங்களை நிறைவு செய்யவில்லை என்றால் , முன் செயலாக்கம், தரவு சுரங்க படிகளை மறு மதிப்பீடு செய்து மாற்றுவது கட்டாயம். கற்ற பாணிகள் விரும்பிய செந்தரங்களை நிறைவு செய்தால் , கற்ற பாணிகளை விளக்கி அவற்றை அறிவாக மாற்றுவதே இறுதி கட்டமாகும்.
ஆராய்ச்சி
தொகுஇந்தத் துறையில் முதன்மையான தொழில்முறை அமைப்பு கணிப்பு எந்திரங்களுக்கான கழகம் (ACM), சிறப்பு வட்டி குழு (SIG), அறிவு கண்டுபிடிப்பு, தரவு அகழ்வு அமைப்பு (SIGKDD) ஆகியன ஆகும்.[17][18] 1989 முதல் இந்த ACMSIG ஒவ்வொரு ஆண்டும் பன்னாட்டு மாநாட்டை நடத்தி அதன் நடவடிக்கைகளை வெளியிட்டது , மேலும் 1999 முதல் இது " SIGKDD தேட்டங்கள் " என்ற தலைப்பில் ஆண்டுதோறுமான கல்வி இதழை வெளியிட்டுள்ளது.[19]
தரவு அகழ்தலில் நடந்த கணினி அறிவியல் மாநாடுகள் பின்வருமாறு:
- சிஐகேஎம் மாநாடு தகவல் மற்றும் அறிவு மேலாண்மை குறித்த ஏசிஎம் மாநாடு சிஐகேஎம் தகவல், அறிவாட்சி குறித்த மாநாடு
- எந்திர கற்றல், கோட்பாடுகள், தரவுத்தளங்களில் அறிவு கண்டுபிடிப்பு நடைமுறை பற்றிய ஐரோப்பிய மாநாடு
- KDD மாநாடு ACM SIGKDD அறிவு கண்டுபிடிப்பு, தரவு அகழ்தலுக்கான மாநாடு
ICDE மாநாடு, SIGMOD மாநாடு, மீப் பெருந்தரவு தளங்கள் குறித்த பன்னாட்டு மாநாடு போன்ற பல தரவு மேலாண்மை / தரவுத்தள மாநாடுகளிலும் தரவு அகழ்தல் தலைப்புகள் அமைந்தன.
செந்தரங்கள்
தொகுதரவு அகழ்தல் செயல்முறைக்கான செந்தரங்களை வரையறுக்க சில முயற்சிகள் மேற்கொள்ளப்பட்டுள்ளன , எடுத்துக்காட்டாக 1999 ஐரோப்பியக் குறுக்குத் தொழில் செந்தரச் செயலாக்கம் (CRISP - DM), 2004 ஜாவா தரவகழ்தல் செந்தரம் (JDM), ஆகிய செயல்முறைகளுக்கு அடுத்தடுத்து (CRISP - DM 2 மற்றும் JDM 2) 2006 இல் செயலில் இருந்தது , ஆனால் அதன் பின்னர் நிறுத்தப்பட்டது. ஜேடிஎம் 2 இறுதி வரைவை எட்டாமல் திரும்பப் பெறப்பட்டது.
பிரித்தெடுக்கப்பட்ட படிமங்களை பரிமாறிக்கொள்வதற்கு, குறிப்பாக முன்கணிப்பு பகுப்பாய்வுகளில் பயன்படுத்துவதற்கு முதன்மைச் செந்தர முன்கணிப்புப் படிம மார்க்கப் மொழி (பி. எம். எம். எல்) ஆகும் , இது தரவுச் சுரங்கக் குழுவால் (டி. எம். ஜி) உருவாக்கப்பட்ட எக்ஸ். எம்.எல் அடிப்படையிலான மொழியாகும். மேலும் பல தரவுச் செயலாக்கப் பயன்பாடுகளால் பரிமாற்ற வடிவமாக ஏற்கப்படுகிறது. முன்கணிப்பு பகுப்பாய்வு முன்கணிப்புப் படிம மார்க்கப் மொழி XML பெயர் குறிப்பிடுவது போல , இது முன்கணிப்பு மாதிரிகளை மட்டுமே உள்ளடக்கியது. வணிக பயன்பாடுகளுக்கு உயர் முதன்மை வாய்ந்த குறிப்பிட்ட தரவுச் சுரங்க பணி. இருப்பினும் , மறைப்பதற்கான நீட்டிப்புகள் (எடுத்துக்காட்டாக , துணைக் கொத்தாக்கம்) டி. எம். ஜியில் இருந்து தற்சார்பாக முன்மொழியப்பட்டுள்ளன.
குறிப்பிடத்தக்க பயன்பாடுகள்
தொகுஇலக்கவியல் தரவு கிடைக்கும் இடங்களில் தரவு அகழ்தல் பயன்படுகிறது. தரவு அகழ்தலின் குறிப்பிடத்தக்க எடுத்துக்காட்டுகளாக, வணிக மருத்துவம் , அறிவியல் , நிதி, கண்காணிப்பு ஆகியன காணப்படுகின்றன.
தனியுரிமைக் கவலைகளும் அறநெறிகளும்
தொகு" தரவு அகழ்தல் " என்ற சொல்லுக்கு தாமே எந்த நெறிமுறைத் தாக்கங்களையும் கொண்டிருக்கவில்லை என்றாலும் , இது பெரும்பாலும் பயனர் நடத்தை (நெறிமுறை மற்றும் பிற) தொடர்பாக தகவல்களை அகழ்வதோடு தொடர்புடையது.[20]
தரவு அகழ்தலைப் பயன்படுத்தக்கூடிய வழிகள் சில வேளைகளிலும் சூழல்களிலும் தனியுரிமை சட்டம் சார்ந்த தன்மை, நெறிமுறைகள் குறித்து கேள்விகளை எழுப்பலாம். தனியுரிமை நெறிமுறைகள்[21] குறிப்பாக , தரவு அகழ்தல் அரசு அல்லது தேசியப் பாதுகாப்பு அல்லது சட்டச் செயலாக்க நோக்கங்களுக்காக வணிக தரவுத் தொகுப்புகள் , மொத்த தகவல் விழிப்புணர்வு திட்டம் அல்லது அறிவுரையில் உள்ளவை, தேசியப் பாதுகாப்புச் சட்டச் செயலாக்கம், மொத்த தகவல் விழிப்புணர்வு அறிவுரை சார்ந்த தனியுரிமைக் கவலைகளை எழுப்பியுள்ளது. [22][23]
தரவு அகழ்வுக்குத் தரவு ஆயத்தமும் ஆக்கமும் தேவைப்படுகிறது. இது ரகசியத்தன்மை, தனியுரிமைக் கடமைகளை விட்டுகொடுக்க செய்யும் தகவல் அல்லது பாணிகளைக் கண்டுபிடிக்கும். தனியுரிமை இது ஏற்படுவதற்கான ஒரு பொதுவான வழி தரவு திரட்டலே ஆகும். தரவு தேக்கல், தரவு திரட்டுதல் என்பது தரவை ஒன்றாக இணைப்பதை உள்ளடக்கியது (பகுப்பாய்வு செய்ய உதவும் வகையில் பல்வேறு வாயில்களிலிருந்து அமையலாம்) (ஆனால் இது தனிப்பட்ட நிலைத் தரவை அடையாளம் காணக்கூடியதாகவோ அல்லது வெளிப்படையாகவோ இருக்கலாம்).[24] இந்த ஒரு பிரிவே தரவு அகழ்வு அன்று.ஆனால், இது பகுப்பாய்விற்கு முன்னும் பின்னுமான தரவு ஆக்கத்தின் விளைவாகும். தனக்காக ஒரு தனிநபரின் தனியுரிமைக்கு அச்சுறுத்தல் ஏற்படுகிறது. ஒரு முறை தொகுக்கப்பட்ட தரவு அகழ்வுத் தரவு அல்லது புதிதாக தொகுக்கப்பட்ட தரவுகளுக்கான அணுகல் உள்ள எவரும் குறிப்பாக தரவு முதலில் பெயரிடாமல் இருக்கும்போது குறிப்பிட்ட நபர்களை அடையாளம் காண முடியும். .[25]
தரவு திரட்டப்படுவதற்கு முன்பு பின்வருவனவற்றை அறிந்திருக்க வேண்டும் என்று பரிந்துரைக்கப்படுகிறது.[24]
- தரவு திரட்டலின் நோக்கமும் ஏதேனும் அறியப்பட்ட தரவு அகழ்வுத் திட்டங்களின் நோக்கமும்.
- தரவு எவ்வாறு பயன்படுத்தப்படும் ?
- யார் தரவை அகழ்வு செய்ய.முடியும்? தரவையும் மற்றும் அவற்றின் கொணர்வுகளையும் யார் பயன்படுத்த முடியும்?
- தரவுக்கான அணுகலைச் சுற்றியுள்ள பாதுகாப்பின் நிலை.
- திரட்டிய தரவை எவ்வாறு புதுப்பிக்க முடியும்?.
தனிநபர்களை எளிதில் அடையாளம் காண முடியாதபடி பெயரில்லாமல் மாறும் வகையில் தரவுகளும் மாற்றியமைக்கப்படலாம்.[24] இருப்பினும், பெயரில்லாத தரவுத் தொகுப்புகள் கூட தனிநபர்களை அடையாளம் காண வழிவகுக்கும் போதுமான தகவல்களைக் கொண்டிருக்கலாம். இந்நிலை, ஊடகவியலாளர்கள் கவனக்குறைவாக வெளியிடப்பட்ட தேடல் வரலாறுகளின் அடிப்படையில் பல நபர்களைக் கண்டுபிடிக்க முடிந்தபோது, ஏற்பட்டது.[26]
வழங்குநருக்கு வழிவகுக்கும் தனிப்பட்ட முறையில் அடையாளம் காணக்கூடிய தகவல்களை கவனக்குறைவாக வெளிப்படுவது நேர்மையான தகவல் நடைமுறைகளை மீறுகிறது. தனிப்பட்ட முறையில் அடையாளம் காணக்கூடிய தகவல், இந்த கவனக்குறைவு, குறிப்பிட்ட நபருக்கு நிதி சார்ந்த உணர்ச்சி சார்ந்த அல்லது உடல் சார்ந்த தீங்கை ஏற்படுத்தும். தனியுரிமை மீறல் ஒரு நிகழ்வு சார்ந்து, வால்கிரீன்சின் புரவலர்கள், தரவு அகழ்தல் நிறுவனங்களுக்கு பரிந்துரைக்கப்பட்ட தகவல்களை அவர்கள் மருந்து நிறுவனங்களுக்கு விற்றதற்காக 2011 ஆம் ஆண்டில் நிறுவனத்திற்கு எதிராக ஒரு வழக்கைத் தாக்கல் செய்தனர்.[27]
ஐரோப்பாவின் நிலைமை
தொகுஐரோப்பா வலுவான தனியுரிமைச் சட்டங்களைக் கொண்டுள்ளது. மேலும் நுகர்வோரின் உரிமைகளை இன்னும் வலுப்படுத்த முயற்சிகள் நடந்து வருகின்றன. ஐரோப்பா எனினும், அமெரிக்க - ஐரோப்பிய ஒன்றியம் 1998க்கும் 2000 க்கும் இடையில் உருவாக்கப்பட்ட அமெரிக்க காப்பான துறைமுக நெறிமுறைகள் தற்போது ஐரோப்பிய பயனர்களை அமெரிக்க நிறுவனங்களால் தனியுரிமைச் சுரண்டலுக்கு திறம்பட ஆட்படுத்துகின்றன. எட்வர்டு சுனோடனின் உலகளாவிய கண்காணிப்பு வெளிப்பாட்டின் விளைவாக , இந்த ஒப்பந்தத்தை நீக்க விவாதம் அதிகரித்துள்ளது , குறிப்பாக தரவு தேசியப் பாதுகாப்பு நிறுவனம் அமெரிக்காவுடன் முழுமையாக வெளிப்படையான ஒரு உடன்பாட்டை எட்டுவதற்கான முயற்சிகள் தோல்வியடைந்துள்ளன.[28]
குறிப்பாக ஐக்கிய இராச்சியத்தில் , நிறுவனங்கள் தரவு அகழ்தலைப் பயன்படுத்தி சில வாடிக்கையாளர்களின் குழுக்களை இலக்காகக் கொண்டு நேர்மையற்ற முறையில் அதிக விலைகளை செலுத்த வேண்டிய கட்டாயத்தில் உள்ளன. இந்த குழுக்கள் குறைந்த சமூக - பொருளாதார நிலை நபர்களாக இருக்க முனைகின்றன. அவர்கள் இலக்கவியல் சந்தை இடங்களில் சுரண்டும் வழிமுறைகளில் ஆர்வமாக இல்லை.[29]
அமெரிக்காவில் நிலைமை
தொகுஅமெரிக்காவில் தனியுரிமை குறித்த கவலைகள் அமெரிக்கப் பேராயத்தால் நலவாழ்வுக் காப்பீட்டு பெயர்வுத்திறன், பொறுப்புக்கூறல் சட்டம் (HIPAA) போன்ற ஒழுங்குமுறை கட்டுப்பாடுகள் வழியாகத் தீர்க்கப்பட்டுள்ளன. அமெரிக்க காங்கிரஸ் சுகாதார காப்பீட்டு பெயர்வுத்திறன், பொறுப்புக்கூறல் சட்டம் தனிநபர்கள் தாங்கள் வழங்கும் தகவல்கள், அதன் தற்போதைய, எதிர்கால பயன்பாடுகள் குறித்து தங்கள் தகவலறிந்த ஒப்புதலை வழங்க வேண்டும் என்று கோருகிறது. உயிரித் தொழில்நுட்ப வணிக வீக் இதழில் உள்ள ஒரு கட்டுரையின்படி , " நலவாழ்வுக் காப்பீட்டு பெயர்வுத்திறன், பொறுப்புக்கூறல் சட்டம் ஆராய்ச்சி அரங்கில் நீண்டகால விதிமுறைகளை விட பெரிய பாதுகாப்பை வழங்காது " என்று AAHC கூறுகிறது. மிக முதன்மையாக , தகவலறிந்த ஒப்புதலின் வழியாக பாதுகாப்பதற்கான விதியின் குறிக்கோள் சராசரி தனிநபர்களுக்கு புரிந்துகொள்ள முடியாத அளவை அணுகுவதாகும்.[30]
நலவாழ்வுக் காப்பீட்டு பெயர்வுத்திறன், பொறுப்புக்கூறல் சட்டம், குடும்ப கல்வி உரிமைகள், தனியுரிமை சட்டம் (FERPA) போன்ற அமெரிக்கத் தகவல் தனியுரிமைச் சட்டங்கள் , அத்தகைய ஒவ்வொரு சட்டமும் உரையாற்றும் குறிப்பிட்ட பகுதிகளுக்கு மட்டுமே பொருந்தும். குடும்பக் கல்வி உரிமைகள் , தனியுரிமை சட்டம் அமெரிக்காவில் உள்ள பெரும்பாலான வணிகங்களால் தரவு அகழ்தலைப் பயன்படுத்துவது எந்தச் சட்டத்தாலும் கட்டுப்படுத்தப்படவில்லை.
பதிப்புரிமைச் சட்டம்
தொகுஐரோப்பாவின் நிலைமை
தொகுஐரோப்பியப் பதிப்புரிமை தரவுத்தளச் சட்டங்களின் கீழ் , பதிப்புரிமை உரிமையாளரின் ஒப்புதலின்றி பதிப்புரிமை படைப்புகளை (வலை சுரங்கங்கள் போன்றவை) தரவு அகழ்வது சட்டவியலானது அல்ல. ஐரோப்பாவில் ஒரு தரவுத்தளம் தூய தரவாக இருக்கும்போது , பதிப்புரிமை இல்லை..ஆனால் தரவுத்தள உரிமைகள் இருக்கலாம் - எனவே தரவு அகழ்தல் தரவுத்தள வழிகாட்டுதலால் பாதுகாக்கப்படும் அறிவுசார் சொத்துரிமை உரிமையாளர்களின் உரிமைகளுக்கு உட்பட்டது. அறிவுசார் சொத்து தரவுத்தளளஆணை கர்க்ரீவ்சு மீளாய்வின் பரிந்துரையின் பேரில் , உள்ளடக்கத் தரவு அகழ்தலை ஒரு வரம்பாகவும் விதிவிலக்காகவும் ஒப்புதல் அளிக்க இங்கிலாந்து அரசு 2014 ஆம் ஆண்டில் அதன் பதிப்புரிமைச் சட்டத்தைத் திருத்த வழிவகுத்தது.[31] 2009 ஆம் ஆண்டில் தரவடகழ்தலுக்கு விதிவிலக்கு அறிமுகப்படுத்திய ஜப்பானுக்கு அடுத்தபடியாக அவ்வாறு செய்தது. உலகின் இரண்டாவது நாடு இங்கிலாந்து ஆகும். இருப்பினும் , தகவல் கழக ஆணை (2001) இன் கட்டுப்பாடு காரணமாக , இங்கிலாந்து விதிவிலக்கு வணிகவியல் நோக்கங்களுக்காக மட்டுமே உள்ளடக்கத் தரவு அகழ்தலுக்கு ஒப்புதல் அளிக்கிறது. தகவல் கழக ஆணை இங்கிலாந்து பதிப்புரிமைச் சட்டமும் இந்த விதியை ஒப்பந்த விதிமுறைகளாலும் கட்டுத்தளைகளாலும் இசைவு தராது. 2020 ஆம் ஆண்டிலிருந்தும் சுவிட்சர்லாந்து தரவு அகழ்தலை 24d சுவிசு பதிப்புரிமைச் சட்டத்தின் கீழ் சில கட்டுபாடுகளின் கீழ் ஆராய்ச்சித் துறையில் அனுமதிப்பதன் வழி ஒழுங்குபடுத்துகிறது. இந்தக் கட்டுரை 2020 ஏப்ரல் 1ஆம் தேதி முதல் நடைமுறைக்கு வந்தது.[32]
ஐரோப்பிய ஆணையம் 2013 ஆம் ஆண்டில் ஐரோப்பாவிற்கான உரிமங்கள் என்ற தலைப்பில் உரை, தரவு அகழ்தலில் பங்குதாரர்களின் விவாதத்திற்கு ஏர்பாடு செய்தது. ஐரோப்பிய ஆணையம்[33] வரம்புகள், விதிவிலக்குகளை விட உரிமம் போன்ற இந்தச் சட்டச் சிக்கலுக்கான தீர்வில் கவனம் செலுத்தியதால் , பல்கலைக்கழகங்களின் பேராளர்கள் ஆராய்ச்சியாளர்கள், நூலகங்கள், குடிமைச் சமூக குழுக்கள், திறந்த அணுகல் வெளியீட்டாளர்கள் மே 2013 இல் பங்குதாரர்களின் உரையாடலை விட்டு வெளியேற வழிவகுத்தது.[34]
அமெரிக்காவில் நிலைமை
தொகுஅமெரிக்கப் பதிப்புரிமைச் சட்டம், குறிப்பாக நேரியப் பயன்பாட்டிற்கான அதன் விதிகள் அமெரிக்கா, இசுரேல், தைவான், தென் கொரியா போன்ற பிற நேரியப் பயன்பாட்டு நாடுகளில் உள்ளடக்கத் தர்வு அகழ்தலின் சட்டவியலான தன்மையை நிலைநிறுத்துகிறது. அமெரிக்கப் பதிப்புரிமை சட்டம், நேரியப் பயன்பாடு, உள்ளடக்கத் தரவு அகழ்தல் ஆகியன உருமாறும் தன்மை கொண்டதாக இருப்பதால், அது முதன்மை வேலையை மாற்றாது. இது நேரியப் பயன்பாட்டின் கீழ் சட்டவியலானதாக கருதப்படுகிறது. எடுத்துக்காட்டாக , கூகிள் புக் தீர்வின் ஒரு பகுதியான வழக்கின் தலைமை நீதிபதி , இலக்க மயமாக்கல் திட்டம் காண்பிக்கும் உருமாறும் பயன்பாடுகளின் காரணமாக , பதிப்புரிமை புத்தகங்களின் கூகிளின் இலக்க மயமாக்கல் திட்டம் ஓரளவு சட்டவியலானது என்று தீர்ப்பளித்தார்.[35]
மென்பொருள்
தொகுஇலவச திறந்த வாயில் தரவுனாகழ்வு மென்பொருளும் பயன்பாடுகளும்
தொகுபின்வரும் விண்ணப்பங்கள் கட்டற்ற/ திறந்த வாயில் உரிமங்களின் கீழ் கிடைக்கின்றன. பயன்பாட்டு வாயில் குறிமுறைக்கான பொது அணுகலும் கிடைக்கிறது.
- கேரட் 2(Carrot2): உரை, தேடல் முடிவுகள் கொத்தாக்கக் கட்டமைப்பு. கேரட் 2
- வேதிமயமாக்கல். org: ஒரு வேதியியல் நிறுவனம் தர்வு அகழ்வு வல்லுனர் வலை தேடுபொறி.
- எல்கி9ELKI): ஜாவா மொழியில் எழுதப்பட்ட மேம்பட்ட கொத்துப் பகுப்பாய்வு, வெளிப்புற கண்டறிதல் முறைகளைக் கொண்ட ஒரு பல்கலைக்கழக ஆராய்ச்சி திட்டம்.
- கேட்(GATE): ஒரு இயற்கை மொழி செயலாக்கம், மொழிப் பொறியியல் கருவி.
- கினைம்(KNIME): கான்சுட்டான்சு தகவல் அகழ்வுத் தொழிற்சாலை ஒரு பயனர் நட்பான, விரிவான தரவு பகுப்பாய்வு கட்டமைப்பை உருவாக்குகிறது.
- மாபெரும் இணையப் பகுப்பாய்வு (MOA): ஜாவா நிரலாக்க மொழியில் கருத்து சறுக்கல் கருவியுடன் நிகழ்நேர பெருந்தரவு ஓடை அகழ்தல்.
- மெப்பெக்சு(MEPX): ஒரு மரபணு நிரலாக்க மாறுபாட்டின் அடிப்படையில் பின்னேகும் வகைப்பாட்டுச் சிக்கல்களுக்கான குறுக்கு - தளக் கருவி.
- mlpack: C++ மொழியில் எழுதப்பட்ட பயன்படுத்த ஆயத்தமாக உள்ள எந்திர கற்றல் வழிமுறைகளின் தொகுப்பு.
- NLTK (Natural Language Toolkit) என்பது பைதான் மொழிக்கான குறியீட்டு மற்றும் புள்ளியியல் இயற்கை மொழிச் செயலாக்கத்திற்கான நூலகங்கள், நிரல்களின் தொகுப்பாகும்.
- OpenNN: நரம்பியல் வலைப்பினையங்கள் நூலகத்தைத் திறக்கும்.
- ஆரஞ்சு: பைதான் மொழியில் எழுதப்பட்ட ஒரு கூறு அடிப்படையிலான தரவு அகழ்தல் எந்திரக் கற்றல் மென்பொருள் தொகுப்பு.
- PSPP: SPSS PSPP SPSS ஆகியவற்றைப் போன்ற குனு திட்டத்தின் கீழ் தரவு அகழ்தல் புள்ளியியல் மென்பொருள்
- R: புள்ளியியல் கணினிகளுக்கான நிரலாக்க மொழி, மென்பொருள் சூழல் - தரவுச் சுரங்கம் மற்றும் கிராபிக்ஸ். ஆர் நிரலாக்க மொழி புள்ளியியல். இது குனு திட்டத்தின் ஒரு பகுதியாகும்.
- டார்ச்: எந்திரக் கற்றல் வழிமுறைகளுக்கு பரந்த ஆதரவுடன் லுவா நிரலாக்க மொழி, அறிவியல் கணினி கட்டமைப்பிற்கான திறந்த வாயில் ஆழமான கற்றல் நூலகம்.
- கட்டமைக்கப்படாத தகவல் மேலாண்மைக் கட்டமைப்பு(UIMA ) என்பது உரை , பேச்சலை, காணொலி சார்ந்த கட்டமைக்கப்படாத உள்ளடக்கத்தைப் பகுப்பாய்வு செய்வதற்கான ஒரு கூறு கட்டமைப்பாகும் - இது முதலில் IBM நிறுவனத்தால் உருவாக்கப்பட்டது.
- வேக்கா: ஜாவா நிரலாக்க மொழியில் எழுதப்பட்ட எந்திரக் கற்றல் மென்பொருள் பயன்பாடுகளின் தொகுப்பு.
தனியுரிமத் தரவதகழ்தல் மென்பொருளும் பயன்பாடுகளும்
தொகுபின்வரும் மென்பொருள் விண்ணப்பங்கள் தனியுரிமை உரிமங்களின் கீழ் கிடைக்கின்றன.
- அங்கோசு KnowledgeSTUDIO: தரவு அகழ்தற் கருவி
- இலியோன்சால்வர்(LIONsolver): தரவகழ்தல் வணிக நுண்ணறிவு, கற்றல், நுண்ணறிவு உகப்பாக்க (LIONN) அணுகுமுறையை செயல்படுத்தும் படிமமாக்கம் ஆகியவற்றிற்கான ஒருங்கிணைந்த மென்பொருள் பயன்பாடு. லியோன்சால்வர்
- பெருநிறுவன நுண்ணறிவால் உருவாக்கப்பட்ட பல்லுறுப்புக்கருவி பகுப்பாய்வாளர்: தரவு, உரை அகழ்தல் மென்பொருள் பாலி அனலிசுட்டு).
- மைக்ரோசாப்ட் அனாலிசிசு சர்வீசசு (Microsoft analysis Services): மைக்ரோசாப்ட் வழங்கிய தரவு அகழ்தல் மென்பொருள்.
- நெட்டோல்(NetOwl): தரவு அகழ்தலைச் செயல்படுத்தும் பன்மொழி உரை, நிறுவன பகுப்பாய்வு ஆக்கங்களின் தொகுப்பு.
- ஆரக்கிள் தரவு தரவு அகழ்தல்: ஆரக்கிள் தொழிலிணையத்தின் தரவு அகழ்தல் மென்பொருள்.
- பிசெவன்(PSeven): பொறியியல் உருவகப்படுத்துதல், பகுப்பாய்வு தானியக்கத்திற்கான தளம். பலதரப்பட்ட தேர்வுமுறை, தரவு அகழ்தொழில் ஆகியவை DATADVANCE நிறுவனத்தால் வழங்கப்படுகின்றன.
- குளுக்கோர் ஒமிக்சு தேடுபொறி: தரவு அகழ்தல் மென்பொருள்.
- விரைவகழ்வி எனும் ரேபிட்மைனர் (RapidMiner): எந்திரக் கற்றல், தரவு அகழ்தல் செய்முறைகளுக்கான சூழல்.
- சாசு(SAS) நிறுவன அகழ்வி: SAS நிறுவனத்தால் வழங்கப்பட்ட தரவு அகழ்தல் மென்பொருள்.
- SPSS படிமமாக்கி: IBM நிறுவனம் வழங்கிய தரவு அகழ்தல் மென்பொருள்.
- புள்ளியியல் தரவு அகழ்வி:( StatSoft) நிறுவனம் வழங்கிய தரவு அகழ்தல் மென்பொருள்.
- தனாக்கிரா: கற்பிப்பதற்கும் காட்சிப்படுத்தலும் சார்ந்த தரவமகழ்தல் மென்பொருள்.
- வெர்ட்டிகா ஹெவ்லெட் - பேக்கார்டு(Vertica: Hewlett - Packard) வழங்கிய தரவு அகழ்தல் மென்பொருள்.
- கூகுள் கிளவுடு இயங்குதளம்: கூகுள் மேலாண்மை தானியங்கித் தனிப்பயன் எம். எல் படிமங்கள்.
- அமேசான் சேஜ்மேக்கர்: தனிப்பயன் எம். எல் படிமங்களை உருவாக்குவதற்கு அமேசான் வழங்கும் மேலாண்மைச் சேவை.
மேலும் காண்க
தொகு- வழிமுறைகள்
- Agent mining
- Anomaly/outlier/change detection
- Association rule learning
- Bayesian networks
- Classification
- Cluster analysis
- Decision trees
- Ensemble learning
- Factor analysis
- Genetic algorithms
- Intention mining
- Learning classifier system
- Multilinear subspace learning
- நரம்பியல் வலைப்பிணையம்
- Regression analysis
- Sequence mining
- Structured data analysis
- Support vector machines
- Text mining
- Time series analysis
- பயன்பாட்டுக் களங்கள்
- பயன்பாட்டு எடுத்துகாட்டுகள்
எடுத்துகாட்டுகள்
- தொடர்புடைய தலைப்புகள்
தரவுகளிலிருந்து தகவல்களைப் பிரித்தெடுப்பது பற்றிய கூடுதல் தகவலுக்கு (தரவை பகுப்பாய்வு செய்வதற்கு மாறாக) பார்க்கவும்: தரவு பகுப்பாய்வு
- பிற வாயில்கள்
- தரவு தேக்கமும் தரவு அகழ்தலுக்கான பன்னாட்டு இதழ்
குறிப்புகள்
தொகு- ↑ 1.0 1.1 1.2 "Data Mining Curriculum". ACM SIGKDD. 2006-04-30. பார்க்கப்பட்ட நாள் 2014-01-27.
- ↑ "Encyclopædia Britannica: Definition of Data Mining". பார்க்கப்பட்ட நாள் 2010-12-09.
- ↑ "The Elements of Statistical Learning: Data Mining, Inference, and Prediction". பார்க்கப்பட்ட நாள் 2012-08-07.
- ↑ Data Mining: Concepts and Techniques. Morgan Kaufmann. 2011.
- ↑ 5.0 5.1 5.2 Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). "From Data Mining to Knowledge Discovery in Databases" (PDF). பார்க்கப்பட்ட நாள் 17 December 2008.Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). "From Data Mining to Knowledge Discovery in Databases" (PDF). Archived (PDF) from the original on 2022-10-09. Retrieved 17 December 2008.
- ↑ OKAIRP 2005 Fall Conference, Arizona State University பரணிடப்பட்டது 2014-02-01 at the வந்தவழி இயந்திரம்
- ↑ Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. (2010). "WEKA Experiences with a Java open-source project". Journal of Machine Learning Research 11: 2533–2541. "the original title, "Practical machine learning", was changed ... The term "data mining" was [added] primarily for marketing reasons.".
- ↑ Olson, D. L. (2007). Data mining in business services. Service Business, 1(3), 181–193. எஆசு:10.1007/s11628-006-0014-7
- ↑ Lovell, Michael C. (1983). "Data Mining". The Review of Economics and Statistics 65 (1): 1–12. doi:10.2307/1924403.
- ↑ Mena, Jesús (2011). Machine Learning Forensics for Law Enforcement, Security, and Intelligence. CRC Press (Taylor & Francis Group).
- ↑ Piatetsky-Shapiro, Gregory; Parker, Gary (2011). "Lesson: Data Mining, and Knowledge Discovery: An Introduction". Introduction to Data Mining. KD Nuggets. பார்க்கப்பட்ட நாள் 30 August 2012.
- ↑ Coenen, Frans (2011-02-07). "Data mining: past, present and future" (in en). The Knowledge Engineering Review 26 (1): 25–29. doi:10.1017/S0269888910000378. பன்னாட்டுத் தர தொடர் எண்:0269-8889. https://www.cambridge.org/core/product/identifier/S0269888910000378/type/journal_article. பார்த்த நாள்: 2021-09-04.
- ↑ Kantardzic, Mehmed (2003). Data Mining: Concepts, Models, Methods, and Algorithms. John Wiley & Sons.
- ↑ Lukasz Kurgan and Petr Musilek: "A survey of Knowledge Discovery and Data Mining process models" பரணிடப்பட்டது 2013-05-26 at the வந்தவழி இயந்திரம். The Knowledge Engineering Review. Volume 21 Issue 1, March 2006, pp 1–24, Cambridge University Press, New York, எஆசு:10.1017/S0269888906000737
- ↑ Azevedo, A. and Santos, M. F. KDD, SEMMA and CRISP-DM: a parallel overview பரணிடப்பட்டது 2013-01-09 at the வந்தவழி இயந்திரம். In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182–185.
- ↑ Hawkins, Douglas M (2004). "The problem of overfitting". Journal of Chemical Information and Computer Sciences 44 (1): 1–12. doi:10.1021/ci0342472. பப்மெட்:14741005.
- ↑ "Microsoft Academic Search: Top conferences in data mining". பார்க்கப்பட்ட நாள் 2014-06-13.
- ↑ "Google Scholar: Top publications - Data Mining & Analysis". பார்க்கப்பட்ட நாள் 2022-06-11.
- ↑ SIGKDD Explorations பரணிடப்பட்டது 2010-07-29 at the வந்தவழி இயந்திரம், ACM, New York.
- ↑ Seltzer, William (2005). "The Promise and Pitfalls of Data Mining: Ethical Issues". ASA Section on Government Statistics (American Statistical Association). https://ww2.amstat.org/committees/ethics/linksdir/Jsm2005Seltzer.pdf.
- ↑ Pitts, Chip (15 March 2007). "The End of Illegal Domestic Spying? Don't Count on It". Washington Spectator. http://www.washingtonspectator.com/articles/20070315surveillance_1.cfm.
- ↑ Taipale, Kim A. (15 December 2003). "Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data". Columbia Science and Technology Law Review 5 (2). இணையக் கணினி நூலக மையம்:45263753. http://www.stlr.org/cite.cgi?volume=5&article=2. பார்த்த நாள்: 21 April 2004.
- ↑ Resig, John. "A Framework for Mining Instant Messaging Services" (PDF). பார்க்கப்பட்ட நாள் 16 March 2018.
- ↑ 24.0 24.1 24.2 Think Before You Dig: Privacy Implications of Data Mining & Aggregation பரணிடப்பட்டது 2008-12-17 at the வந்தவழி இயந்திரம், NASCIO Research Brief, September 2004
- ↑ Ohm, Paul. "Don't Build a Database of Ruin". Harvard Business Review.
- ↑ AOL search data identified individuals பரணிடப்பட்டது 2010-01-06 at the வந்தவழி இயந்திரம், SecurityFocus, August 2006
- ↑ Kshetri, Nir (2014). "Big data's impact on privacy, security and consumer welfare". Telecommunications Policy 38 (11): 1134–1145. doi:10.1016/j.telpol.2014.10.002. http://libres.uncg.edu/ir/uncg/f/N_Kshetri_Big_2014.pdf. பார்த்த நாள்: 2018-04-20.
- ↑ Weiss, Martin A.; Archick, Kristin. "U.S.–E.U. Data Privacy: From Safe Harbor to Privacy Shield". பார்க்கப்பட்ட நாள் 9 April 2020.
- ↑ Parker, George. "UK companies targeted for using big data to exploit customers". பார்க்கப்பட்ட நாள் 2022-12-04.
- ↑ Biotech Business Week Editors (June 30, 2008); BIOMEDICINE; HIPAA Privacy Rule Impedes Biomedical Research, Biotech Business Week, retrieved 17 November 2009 from LexisNexis Academic
- ↑ UK Researchers Given Data Mining Right Under New UK Copyright Laws. பரணிடப்பட்டது சூன் 9, 2014 at the வந்தவழி இயந்திரம் Out-Law.com. Retrieved 14 November 2014
- ↑ "Fedlex". பார்க்கப்பட்ட நாள் 2021-12-16.
- ↑ "Licences for Europe – Structured Stakeholder Dialogue 2013". பார்க்கப்பட்ட நாள் 14 November 2014.
- ↑ "Text and Data Mining:Its importance and the need for change in Europe". பார்க்கப்பட்ட நாள் 14 November 2014.
- ↑ "Judge grants summary judgment in favor of Google Books – a fair use victory". Antonelli Law Ltd. 19 November 2013.
{{cite web}}
: Missing or empty|url=
(help)
மேலும் படிக்க
தொகு- Cabena, Peter; Hadjnian, Pablo; Stadler, Rolf; Verhees, Jaap; Zanasi, Alessandro (1997); Discovering Data Mining: From Concept to Implementation, Prentice Hall, பன்னாட்டுத் தரப்புத்தக எண் 0-13-743980-6
- M.S. Chen, J. Han, P.S. Yu (1996) "Data mining: an overview from a database perspective பரணிடப்பட்டது 2016-03-03 at the வந்தவழி இயந்திரம்". Knowledge and data Engineering, IEEE Transactions on 8 (6), 866–883
- Feldman, Ronen; Sanger, James (2007); The Text Mining Handbook, Cambridge University Press, பன்னாட்டுத் தரப்புத்தக எண் 978-0-521-83657-9
- Guo, Yike; and Grossman, Robert (editors) (1999); High Performance Data Mining: Scaling Algorithms, Applications and Systems, Kluwer Academic Publishers
- Han, Jiawei, Micheline Kamber, and Jian Pei. Data mining: concepts and techniques. Morgan kaufmann, 2006.
- Hastie, Trevor, Tibshirani, Robert and Friedman, Jerome (2001); The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer, பன்னாட்டுத் தரப்புத்தக எண் 0-387-95284-5
- Liu, Bing (2007, 2011); Web Data Mining: Exploring Hyperlinks, Contents and Usage Data, Springer, பன்னாட்டுத் தரப்புத்தக எண் 3-540-37881-2
- Murphy, Chris (16 May 2011). "Is Data Mining Free Speech?". InformationWeek: 12.
- Nisbet, Robert; Elder, John; Miner, Gary (2009); Handbook of Statistical Analysis & Data Mining Applications, Academic Press/Elsevier, பன்னாட்டுத் தரப்புத்தக எண் 978-0-12-374765-5
- Poncelet, Pascal; Masseglia, Florent; and Teisseire, Maguelonne (editors) (October 2007); "Data Mining Patterns: New Methods and Applications", Information Science Reference, பன்னாட்டுத் தரப்புத்தக எண் 978-1-59904-162-9
- Tan, Pang-Ning; Steinbach, Michael; and Kumar, Vipin (2005); Introduction to Data Mining, பன்னாட்டுத் தரப்புத்தக எண் 0-321-32136-7
- Theodoridis, Sergios; and Koutroumbas, Konstantinos (2009); Pattern Recognition, 4th Edition, Academic Press, பன்னாட்டுத் தரப்புத்தக எண் 978-1-59749-272-0
- Weiss, Sholom M.; and Indurkhya, Nitin (1998); Predictive Data Mining, Morgan Kaufmann
- Witten, Ian H.; Frank, Eibe; Hall, Mark A. (30 January 2011). Data Mining: Practical Machine Learning Tools and Techniques (3 ed.). Elsevier. பன்னாட்டுத் தரப்புத்தக எண் 978-0-12-374856-0. (See also Free Weka software)
- Ye, Nong (2003); The Handbook of Data Mining, Mahwah, NJ: Lawrence Erlbaum