亚洲好骚综合-亚洲黄色录像-亚洲黄色网址-亚洲黄色网址大全-99久久99久久-99久久99久久精品国产

您的位置:軟件測(cè)試 > 開(kāi)源軟件測(cè)試 > 開(kāi)源功能測(cè)試工具 > Selenium
Python Selenium爬取數(shù)據(jù)
作者:風(fēng)雨byt 發(fā)布時(shí)間:[ 2016/12/22 14:28:05 ] 推薦標(biāo)簽:功能測(cè)試 Selenium

  近公司有一項(xiàng)爬取數(shù)據(jù)的工作,借鑒以往的代碼將爬蟲(chóng)重新更新并整理
  將現(xiàn)有爬蟲(chóng)分成幾部分
  0.文件讀取器
  其實(shí)文件讀取和4中的文件存儲(chǔ)是在一個(gè)部分的
  這里簡(jiǎn)單介紹下xls的讀取
def deal_xls_col(name,sheet_name):
body = xlrd.open_workbook(name)
try:
sh = body.sheet_by_name(sheet_name)
except:
print "EORR"
return sh.col_values(0)格式請(qǐng)忽略
  這里讀取了一豎行的xls的數(shù)據(jù)
  返回的格式為list
  1.總調(diào)度器
  這里主要是寫(xiě)邏輯,及0234的順序。
  2.網(wǎng)頁(yè)下載器
  網(wǎng)頁(yè)下載器主要是來(lái)模擬瀏覽器訪問(wèn)對(duì)應(yīng)url
  一個(gè)簡(jiǎn)單的例子
class HtmlDownloader(object):
def download(self,url):
if url is None:
return None
response = urllib2.urlopen(url,timeout=300)
if response.getcode() != 200:
return None
return response.read()
  例子只是去訪問(wèn)url并沒(méi)有對(duì)cookie等相關(guān)限制信息做處理(需要請(qǐng)自行添加)
  3.網(wǎng)頁(yè)分析器
  網(wǎng)頁(yè)分析器其實(shí)是來(lái)處理下載器返回的html的源碼,比如用selenium來(lái)處理的話則有
  company_info_text = driver.find_element_by_class_name('company_info_text')
  company_text = driver.find_element_by_class_name('row b-c-white company-content')
  是用selenium的一些方法來(lái)獲取你需要的數(shù)據(jù)而已
  4.文件存儲(chǔ)器
  這里以xls為例:
def creat_xls_6(xls_name):
styleBoldRed = xlwt.easyxf('font:color-index red, bold on')
headerStye = styleBoldRed    wb = xlwt.Workbook()
ws = wb.add_sheet(xls_name)
ws.write(0, 0, "name", headerStye)
ws.write(0, 1, "oper_name", headerStye)
ws.write(0, 2, "start_date", headerStye)
ws.write(0, 3, "xfsSearchStatus", headerStye)
wb.save(xls_name)
  創(chuàng)建xls表格
def insert_xls_6(xls_name,id, name, oper_name, start_date,xfsSearchStatus):
oldWb = xlrd.open_workbook(xls_name)
newWb = copy(oldWb)
newWs = newWb.get_sheet(0)
newWs.write(id, 0, name)
newWs.write(id, 1, oper_name)
newWs.write(id, 2, start_date)
newWs.write(id, 3, xfsSearchStatus)
newWb.save(xls_name)
  插入數(shù)據(jù)到表格
  這里面沒(méi)有什么高深的秘密,只要你封裝好自己的函數(shù)好了
  上面的例子還不是好的版本,因?yàn)槊看问褂枚家匦滦薷模瑧?yīng)該傳入一個(gè)數(shù)據(jù)來(lái)代替那些變量,這樣可以適配各種數(shù)據(jù)的表格創(chuàng)建和添加了
  還有要說(shuō)的是:一些網(wǎng)站會(huì)限制你爬取數(shù)據(jù),但是大多數(shù)網(wǎng)站都是友好的,但是這并不表示你可以肆無(wú)忌憚的毫無(wú)限制的去爬取。爬取的時(shí)間好設(shè)置成晚上或者。。。。
  還有是不要對(duì)目標(biāo)網(wǎng)站造成不必要的‘傷害’。

軟件測(cè)試工具 | 聯(lián)系我們 | 投訴建議 | 誠(chéng)聘英才 | 申請(qǐng)使用列表 | 網(wǎng)站地圖
滬ICP備07036474 2003-2017 版權(quán)所有 上海澤眾軟件科技有限公司 Shanghai ZeZhong Software Co.,Ltd
主站蜘蛛池模板: 成人在线视频网站 | 在线观看一区二区精品视频 | 国产在线精品成人一区二区三区 | 黄色免费看网站 | 国产人成亚洲第一网站在线播放 | 日本欧美黄色 | 中文字幕禁忌乱偷在线 | 国产成人a视频在线观看 | 日韩资源 | 91蜜臀视频| 欧美18性欧美丶黑吊 | 亚洲一级高清在线中文字幕 | 97午夜理伦影院在线观看 | 日本黄a| 一个人免费看的视频www | 免费的黄视频 | 韩国理论免费 | 一色屋精品亚洲香蕉网站 | 国产成人一区二区三区高清 | 九九九九热精品免费视频 | 一区二区三区在线观看视频 | 精品国产高清自在线一区二区三区 | 日本一区二区三区在线观看视频 | 综合 欧美 国产 视频二区 | 阿v精品一区二区三区 | 欧美日韩亚洲综合 | 宅男午夜影院 | 免费看黄的视频网站 | 草草草视频在线观看 | 无遮挡h肉动漫在线播放内衣 | 一个人看的www播放高清 | 国产欧美日韩综合精品无毒 | vk挠痒痒| 美女视频黄a视频全免费网站色窝 | 日韩福利视频高清免费看 | 一级a性色生活片久久毛片 一级a美女毛片 | 亚洲福利视频一区二区 | 国产成人www免费人成看片 | 一级片+国产 | 欧美国产日本高清不卡免费 | 美女视频很黄很暴黄是免费的 |