1. 條件語(yǔ)句where和if的區(qū)別
從上圖可以看出,where在原始數(shù)據(jù)進(jìn)入PDV(program data vector)前對(duì)數(shù)據(jù)進(jìn)行判斷,是否滿(mǎn)足條件,滿(mǎn)足的條件的觀測(cè)值進(jìn)入PDV,不滿(mǎn)足的則排除,PDV簡(jiǎn)單的說(shuō)就是在編譯過(guò)程中用于存儲(chǔ)新建數(shù)據(jù)集變量值的空間。而if是將原始數(shù)據(jù)集中的所有值放入PDV后進(jìn)行條件判斷,滿(mǎn)足條件的輸出到新建數(shù)據(jù)集中。因此使用where條件篩選速度快于if。where只能從現(xiàn)有的sas數(shù)據(jù)集中選擇觀測(cè),if語(yǔ)句還可以用input語(yǔ)句產(chǎn)生的觀測(cè)中選。Where可以作為選項(xiàng)進(jìn)行應(yīng)用。
運(yùn)行速度比較:
結(jié)果比較: if條件語(yǔ)句首先是把sashelp邏輯庫(kù)的class數(shù)據(jù)集前5個(gè)觀測(cè)對(duì)象放入PDV,對(duì)滿(mǎn)足年齡大于13歲的對(duì)象輸出到新建數(shù)據(jù)集;而where是數(shù)據(jù)放入PDV前逐一進(jìn)行判斷,滿(mǎn)足條件的前5個(gè)觀測(cè)對(duì)象放入PDV,輸出。所以if輸出的觀測(cè)對(duì)象個(gè)數(shù)時(shí)小于或等于obs指定值,而where是等于obs指定值。
If和where關(guān)鍵不同點(diǎn)匯總:
2. select和if
當(dāng)被判斷變量為數(shù)值型變量,select處理效率高于if,而當(dāng)變量為字符型時(shí)if條件判斷效率較高。兩者使用選擇:
選擇if:
a. 變量為字符型;
b. 變量值不均勻分布;
c. 較少判斷條件。
選擇select:
a. 數(shù)據(jù)規(guī)整分布;
b. 變量為數(shù)值型且條件間互斥,即判斷條件間無(wú)交集;
總得來(lái)說(shuō)條件間互斥的數(shù)值型變量或條件較多時(shí)選擇select;其他if。且在數(shù)據(jù)量很大時(shí)兩者的效率才能凸顯。
data test_select;
set sashelp.class;
select;
when (age le 12) age_group='low-12';
when (age le 15) age_group='13-15';
when (age ge 16) age_group='16-high';
otherwise;
end;
run;
3.sql里where和having的區(qū)別
sas sql里where和having條件的選擇規(guī)則類(lèi)似于sas data set新建if和where的區(qū)別,having是對(duì)sql語(yǔ)句中groupby分割后的亞組數(shù)據(jù)集進(jìn)行條件篩選,先按亞組計(jì)算將計(jì)算結(jié)果新變量放入新建表(tables)中,在按照having指定條件對(duì)亞組進(jìn)行篩選;因此having需在group by語(yǔ)句后,而where是對(duì)整個(gè)數(shù)據(jù)集進(jìn)行篩選,先篩選出符合條件的觀測(cè)對(duì)象,再按照group by分割的亞組進(jìn)行計(jì)算,產(chǎn)生的新變量再放入新建表中,where語(yǔ)句需在group by之前;而當(dāng)無(wú)groupby語(yǔ)句時(shí)having的作用相當(dāng)于where;
/*having*/
proc sql noprint;
create table data_having as
select *,avg(age) as avgage from sashelp.class
group by sex
having age ge 15;
quit;
/*where*/
proc sql noprint;
create table data_where as
select *,avg(age) as avgage from sashelp.class
where age ge 15
group by sex;
quit;
結(jié)果差異:
兩者的主要差異:
聯(lián)系客服