Skip to main content

இணைய சுரண்டல் (web scrapping) ரூபி ஸ்கிரிப்ட்டில்

நேற்று சென்ணை பல்கலைகழக தேர்வு முடிவுகள் வெளியானது. ஒவ்வொரு resultஐயும் தனித்தனியாக பார்க்க ரொம்ப நேரமாகும். எல்லாருடைய resultஐயும் ஒரே பக்கத்தில் பார்க்க இந்த script உதவியது. என் நண்பர் ராஜ்குமார் அண்ணா பல்கலைகழக தேர்வு முடிவுகளை எடுக்க இந்த scriptஐ எழுதினார். நான் இதை சிறிது மாற்றியுள்ளேன் (சென்னை பல்கலைக்கழகத்திற்காக). இதைக்கொண்டு html மற்றும் txt fileஆக output எடுக்க முடியும்.

அதற்கு முன் hpricot மற்றும் open-uri என்ற இரு gemகள் தேவை

$sudo gem install hpricot open-uri

கொடுத்து நிறுவிகொள்ளவும்

# Fetch my class students exam result from University site
# Progamme name scrabing_exam_results.rb
# Author : Rajkumar.S
# moded by: Manimaran G
# version : 0.01
# License: GNU GPL 3

require 'rubygems'
require 'open-uri'
require 'hpricot'

url = "http://schools9.com/mad0702.aspx?htno="
# exam_no is a range
exam_no = "s900488".."s900517"

exam_no.each do |each_number|
doc=Hpricot(open(url+each_number))
data=doc.search('table')
# write a file as html format easily view all results in one page
File.open("result.html","a") {|f| f.puts(data)}
# find the inside content of table tag
x=doc.search('table').inner_html
# it is remove the html tags
a=x.gsub(/<\/?[^>]*>/,"")
# spearate an array where \n is placed
b=a.split.join("\n")
puts b+"\n"+"======================="

File.open("result.txt","a") { |f| f.puts(b+"\n\n"+"=================")}

end


எதாவது சந்தேகம் இருந்தால் தெரிவிக்கவும்.

நன்றி: http://upcomer.wordpress.com/

Comments

  1. பயனுள்ள பதிவு ! நன்றி நண்பரே !

    ReplyDelete
    Replies
    1. நன்றி நண்பா.
      தவறாக நிணைக்க வேண்டாம். உங்களுக்கு எந்த வகையில் பயனளித்தது என்று கூற முடியுமா?

      Delete
  2. rubyயின் range பயன்பாடு கலக்கலாக இருக்கிறது. இதில் gems என்பது லைப்ரரியைக் குறிக்கிறதா?

    ReplyDelete

Post a Comment

Popular posts from this blog

கட்டற்றமென்பொருள் பற்றிய மாத மின்இதழ்

உலகெங்கிலும் உள்ள தமிழ் மக்களுக்கு கணினிதொழில்நுட்பத்தை பற்றி அறிமுகம் செய்யும் கணியம் என்ற புதிய மாத மின்னிதழை வெளியிடுவதில் பெருமகிழ்ச்சி அடைகிறோம். கணினி கற்க ஆங்கிலம் தடையாக இருந்த காலம் மாறி தொழில்னுட்பங்கள் யாவும் தமிழில் பெருகும் இந்த காலத்தில் மென்பொருள் பற்றிய நுட்பங்களை தமிழில் வழங்குவதில் பெருமை கொள்கிறோம். இந்த இதழின் கட்டுரைகள் : கட்டற்ற மென்பொருள் லினக்ஸ் பயனர் குழு – ஓர் அறிமுகம் உபுண்டு நிறுவுதல்

படங்களை 700mbயில் தரமாக உருமாற்றம் செய்ய

நம்மிடம் இருக்கும் டிவிடிபடங்களில் பிடித்தவற்றை அவ்வப்போது பார்த்துக்கொள்ள நாம் அவற்றை தனியாகவோ அல்லது, இமேஜாகவோ காபி செய்து வைத்துக்கொள்வோம். அவை அதிக இடத்தை பிடித்துக்கொள்ளும் ஒவ்வொன்றும் படத்திற்கேற்ற மாதிரி 2 முதல் 4 ஜிபி வரை கொள்ளளவு கொண்டிருக்கும். எனவே நாம் அவற்றை அதன் அளவில் குறைத்து அதனை வேறு உருமாட்டில் சேமித்து வைத்துக்கொள்ள விரும்புவோம். அவ்வாறு அதனை மாற்றுவதால் நம்முடைய கணினியின் இடம் மிச்சமாகிறது, மேலும் எளிதாக அவற்றை நம் நண்பர்களுடன் பகிர்ந்து கொள்ளலாம். அளவில் குறைவாக இருப்பதால் இணையத்திலும் அவற்றை ஏற்றி அதனை மற்றவர்களுடன் எளிதாக பகிர்ந்துகொள்ளலாம். ஆனால் இதில் இருக்கும் ஒரு குறைபாடு அதன் தரம். அதில் மாற்றத்தை நன்றாக பார்க்கமுடியும். சில மாற்றப்பட்ட வீடியோக்கள் தரம் குறைவாக இருக்கும். வீடியோ கன்வர்ட்டர்களை பயன்படுத்தும் பலருக்கு இது நன்கு தெரிந்திருக்கும். இணையங்களில் டோரண்ட்களை பயன்படுத்தி படம் இறக்குபவர்க்கள் 700mb களில் தரமான படங்கள் இருப்பதை பார்த்திருக்கலாம். நாம் எவ்வாறு இதுபோன்று தரமாக வீடியோக்களை மாற்றுவது என்று பார்ப்போம்.

சிடி/டிவிடிகளை காப்பி செய்யாதீர்கள்.

நாம் பொதுவாக டிவிடி படங்களை நம்முடைய கணினிகளில் டிவிடி டிரைவ்களில் போட்டு பார்ப்பது பழக்கம். நாம் நண்பர்களிடம் இருந்தோ அல்லது வேறுயாரிடமாவது இருந்தோ படங்களை வாங்கி உடனே பார்த்துவிட்டு தருவதற்கு முடியவில்லை என்றால் நாம் படங்களை காப்பி செய்து அதனை நம் கணினீயில் சேமிப்போம். அவ்வாறு சேமித்த படங்களை டிவிடி டிரைவில் போட்டு பார்ப்பது போன்றே சௌகரியமாக பார்ப்பது என்பது இயலாது. ஒவ்வொரு fileஐயும் நாம் விடியோ ப்ளேயரில் திறக்க வேண்டும். அதில் பலவிதமான fileகள் இருக்கும். நாம் ஒவ்வொன்றாக திறந்து நாம் பார்க்க வேண்டிய அந்த படத்தை பார்ப்பதற்குள் நேரம் ஆகிவிடும். சில fileகள் ஒழுங்காக காப்பி ஆகியிருக்காது. சில டிவிடிக்கள் காப்பி ஆக மறுக்கும்.