Bring Dialog Window to font Đa cửa sổ hộp thoại ra phía trớc
Bring Result Window to font Đa cửa sổ kết quả ra phía trớc
Bring Graph Window to font Đa cửa sổ vẽ đồ thị ra phía trớc
Do-file editor Mở cửa sổ soạn thảo chơng trình
Data editor Mở cửa sổ sửa chữa số liệu
Data browser Mở cửa sổ xem số liệu
Clear more- condition Tắt lệnh more
Break Dừng việc thực hiện lệnh hoặc chơng trình
4. Biên bản làm việc (log file)
Thông thờng khi làm việc với Stata, ngời sử dụng muốn ghi lại biên bản làm việc bao gồm các
lệnh, các thông báo và các kết quả phân tích thu đợc. Stata cho phép ghi lại các biên bản làm
việc bằng lệnh log using.
Cú pháp:
log using (đờng dẫn\tên tệp) [, append replace [ text | smcl ] ]
Các tuỳ chọn:
append Ghi biên bản làm việc tiếp vào 1 file đã có sẵn
replace Ghi lại biên bản làm việc đè lên 1 file đã có sẵn
text Tạo biên bản làm việc dới dạng văn bản (text) (phần mở rộng là log)
smcl Tạo biên bản làm việc dới dạng smcl (phần mở rộng là smcl), đây
cũng là tuỳ chọn ngầm định
Ví dụ:
log using baitap1 Tạo tệp baitap1 ghi lại biên bản làm việc tại th mục
hiện thời, phần mở rộng mặc định là smcl
. log using baitap1
log: C:\baitap1.smcl
log type: smcl
opened on: 17 Feb 2004, 15:32:03
log using baitap1, replace Tạo tệp baitap1 ghi đè lên tệp baitap1 đã có sẵn
log using d:\baitap2, text Tạo tệp baitap2 tại ổ đĩa D, dới dạng văn bản (text)
(phần mở rộng là log)
log using d:\baitap2, append Ghi tiếp tục biên bản làm việc ở tệp baitap2 tại ổ đĩa D
Các tệp với phần mở rộng smcl có thể chuyển thành các tệp text bằng lệnh translate.
Ví dụ:
translate baitap1.smcl exercise1.log
log off
Lệnh này tạm thời dừng việc ghi lại biên bản làm việc vào tệp log/smcl đang mở
log on
Lệnh này tiếp tục ghi biên bản làm việc vào tệp log đang mở. Lênh này đợc dùng sau lện log
using hoặc log off.
5
log close
Lệnh này đóng và lu trữ tệp log đang mở.
Chú ý:
- Stata cho phép chỉ ghi lại những gì mà ngời sử dụng đã gõ trong cửa sổ command, việc
này giúp cho việc sau này viết các chơng trình dựa trên những biên bản đã làm việc. Cú
pháp:
cmdlog using (đờng dẫn\tên tệp) [, append replace]
cmdlog {off | on | close}
- Để xem các file log/smcl vào thanh thực đơn: file/log/view (hoặc ở cửa sổ lệnh
command gõ: view (tên tệp)); hoặc có thể mở bằng các chơng trình soạn thao văn bản
khác nh MS-Word; Notepad
5. Nhập và lu dữ liệu (Use, input and and save)
Mở tệp số liệu đang có:
Cú pháp:
use (đờng dẫn\tên tệp)
Lệnh này mở tệp Stata, với phần rộng là .dta, đợc chỉ ra ở tên tệp.
Ví dụ:
use ho1.dta mở tệp ho1.dta ở th mục hiện thời
use "D:\VHLSS 2004\ho1.dta", clear mở tệp ho1.ta ở th mục VHLSS 2004 trên ổ D
Tệp số liệu Stata có thể đợc mở bằng lựa chọn Open trên thực đơn File; hoặc nút Open (use) trên
thanh công cụ tool bar.
Nếu file số liệu có dung lợng lớn thì chúng ta phải thiết lập bộ nhớ cần dùng cho Stata bằng
lệnh:
set memory #[k|m]
Ví dụ:
set mem 32m
set mem 32000k
Nhập số liệu
Có một số cách để nhập số liệu từ bàn phím vào bộ nhớ của Stata.
- Sử dụng cửa sổ Stata editor để nhập số liệu. Hoặc từ cửa sổ command, gõ lệnh edit. Sau
đó nhập số liệu theo kiểu biểu bảng trong cửa sổ này.
- Sử dụng lệnh: input [danh sách biến + định dạng nếu cần]
Sau đó sử dụng bàn phím để nhập số liệu lần lợt cho các biến của từng quan sát. Giá trị
đợc nhập cách nhau 1 ký tự trống. Kết thúc nhập số liệu bằng lệnh end.
Ví dụ:
. input hhcode str15 name income
hhcode name income
1. 101 "Nguyen Van A" 1200
2. 102 "Nguyen Van B" 1350
3. 103 "Tran Thi C" 2310
6
4. end
Stata cho phép nhập số liệu từ các file cơ sở dữ liệu khác. Trớc hết các file số liệu này cần đợc lu
trữ dới dạng text (có thể bằng chơng trình Excel), các quan sát đợc các nhau 1 dòng và các giá
trị cách nhau 1 dẫu phẩy (commas) hoặc dấu cách (tab). Sau đó dùng lệnh insheet để nhập số
liệu này vào Stata.
Cú pháp:
insheet [danh sách biến] using (tên tệp text) [, [no]names comma tab clear]
Lệnh này sẽ đọc vào bộ nhớ của Stata các quan sát của tệp text, và chỉ ra tên các biến sẽ đợc tạo
ra.
Các tuỳ chọn:
[no]names Cho phép nhập tên biến đợc chỉ ra ở dòng thứ nhất của file text
comma Thông báo là các giá trị của file text đợc phân cách bằng dấu phẩy
tab Thông báo là các giá trị của file text đợc phân cách bằng dấu tab
clear Số liệu đợc đọc vào sẽ thay thế số liệu đang đợc thờng trú trong bộ nhớ
của Stata
Ví dụ:
. insheet using c:\income.txt
(3 vars, 4 obs)
. insheet maho hoten thunhap using c:\income.txt
(note: variable names in file ignored)
(3 vars, 4 obs)
L u trữ số liệu
Cú pháp:
save (đờng dẫn\tên tệp) [,replace]
Lệnh này lu trữ số liệu đang ở trong bộ nhớ của Stata thành tệp chỉ định dới tên tệp. Nếu tuỳ
chọn replace đợc chỉ ra thì tệp số liệu này sẽ ghi đè lên tệp hiện thời (tất nhiên tên tệp số liệu là
giống nhau).
Việc lu trữ số liệu có thể thực hiện bằng các tùy chọn Save và Save as ở trong thanh thực đơn
(menu bar); hoặc nút Save trên thanh công cụ (tool bar).
Chú ý: Xem thêm lệnh infile và outfile
7
Chơng II: Khai thác dữ liệu
1. Cấu trúc lệnh trong Stata (Stata command syntax)
Cấu trúc cơ bản của một lệnh trong Stata nh sau:
[by danh sách biến:] Cú pháp lệnh [danh sách biến] [biểu thức] [điều kiện] [phạm vi]
[quyền số] [, tuỳ chọn]
Trong phần Hớng dẫn s dụng (Help) của Stata, cú pháp lệnh trình bày bằng tiếng Anh nh sau:
[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options]
Trong đó dấu ngoặc vuông ký hiệu các tuỳ chọn.
Chú ý:
- Các câu lệnh Stata đợc viết bằng chữ th ờng.
- Đối với tên biến, Stata phân biệt chữ viết thờng với chữ viết hoa. Ví dụ, trong cùng một
tệp số liệu, biến Ho_ten và biến ho_ten là 2 biến khác nhau.
- Các tuỳ chọn đợc ký hiệu trong dấu ngoặc vuông [ ]. Các tuỳ chọn này có thể có hoặc
không trong câu lệnh. Các tham số bắt buộc (tên biến) đợc đặt trong dấu ngoặc < >. Các
câu lệnh sẽ không thực hiện đợc nếu các tham số bắt buộc này không đợc khai báo.
- Một số lệnh Stata cho phép viết tắt. Ví dụ lệnh summarize có thể viết tắt là sum. Trong
cuốn tài liệu này phần gạch chân dới cú pháp của câu lệnh là cú pháp viết tắt của câu
lệnh đó.
- Các ví dụ trong cuốn tài liệu này sử dụng số liệu Điều tra Mức sống dân c năm 1998 do
Tổng cục Thống kê tiến hành. Trong đó Tệp chi tiêu tổng hợp Hhexp98n.dta thờng
xuyên đợc sử dụng.
by danh sách biến (by varlist): Stata sẽ thực hiện câu lệnh với theo từng giá trị đợc chỉ ra bởi
danh sách biến. Biến đợc chỉ ra bởi danh sách biến đợc yêu cầu sẵp xếp trớc khi thực hiện lệnh.
Ví dụ:
. sort sex
. by sex: sum rlpcex1
-> sex = 1
Variable | Obs Mean Std. Dev. Min Max
+
rlpcex1 | 4375 2980.906 2430.648 357.318 45801.71
-> sex = 2
Variable | Obs Mean Std. Dev. Min Max
8
+
rlpcex1 | 1624 3748.368 3231.241 376.9805 30624.77
. sort sex urban98
. by sex urban98: sum rlpcex1
-> sex = 1, urban98 = Rural
Variable | Obs Mean Std. Dev. Min Max
+
rlpcex1 | 3344 2308.134 1345.671 357.318 24386.43
-> sex = 1, urban98 = Urban
Variable | Obs Mean Std. Dev. Min Max
+
rlpcex1 | 1031 5163.01 3602.245 682.9575 45801.71
-> sex = 2, urban98 = Rural
Variable | Obs Mean Std. Dev. Min Max
+
rlpcex1 | 925 2553.448 1776.178 376.9805 25527.95
-> sex = 2, urban98 = Urban
Variable | Obs Mean Std. Dev. Min Max
+
rlpcex1 | 699 5329.628 3962.946 1057.797 30624.77
Danh sách biến (varlist)
Chỉ ra danh sách các biến chịu tác động của câu lệnh. Nếu nh không có biến nào đợc chỉ ra thì
lệnh Stata sẽ có tác dụng lên tất cả các biến (all variables)
Ví dụ:
. sum hhsize sex reg7
Variable | Obs Mean Std. Dev. Min Max
+
hhsize | 5999 4.752292 1.954292 1 19
sex | 5999 1.270712 .4443645 1 2
reg7 | 5999 4.01917 2.145305 1 7
. sum
Variable | Obs Mean Std. Dev. Min Max
+
househol | 5999 19617.86 11201.92 101 38820
year | 5999 97.94666 .2247337 97 98
month | 5999 6.340723 3.011082 1 12
Break
9
r(1);
Lệnh sum này hiển thị thống kê cơ bản của tất cả các biến trong tệp số liệu.
Điều kiện (if exp)
Stata chỉ thực hiện câu lệnh đối với các quan sát mà giá trị của nó cho kết quả của biểu thức là
đúng.
Ví dụ:
. sum poor if reg7==1
Variable | Obs Mean Std. Dev. Min Max
+
poor | 859 .4982538 .5002882 0 1
Lệnh này chỉ có tác dụng đối với các quan sát mà biến reg7 có giá trị bằng 1.
Phạm vi (in range)
Chỉ ra phạm vi các quan sát chịu tác động của câu lệnh. Range (phạm vi) có thể có các dạng
sau:
sum poor in 10 Tính giá trị trung bình của biến poor cho quan sát 10 (chính bằng giá
trị của biến poor tại quan sát thứ 10)
sum poor in 10/100 Tính giá trị trung bình của biến poor cho quan sát từ 10 đến 100
sum poor in f/100 Tính giá trị trung bình của biến poor cho quan sát từ đầu tiên đến 100
sum poor in 100/l Tính giá trị trung bình của biến poor cho quan sát từ thứ 100 đến quan
sát cuối cùng
Quyền số (weight)
Cho phép tính toán sủ dụng quyền số. Tuỳ chọn về quyền số sẽ đợc trình bày kỹ ở mục 5 của ch-
ơng này.
Các tuỳ chọn (Options)
Nhiều câu lệnh Stata cho phép các tuỳ chọn riêng. Các tuỳ chọn này đợc chỉ ra sau dấu phẩy.
Ví dụ:
Lệnh sum có tuỳ chọn là detail, cho phép tính toán thêm một số thống kê khác ngoài giá trị
trung bình và độ lệnh chuẩn.
. sum rlpcex1, detail
comp.M&Reg price adj.pc tot exp
Percentiles Smallest
1% 682.9575 357.318
5% 1012.433 366.2792
10% 1238.088 376.9805 Obs 5999
25% 1671.054 381.3502 Sum of Wgt. 5999
50% 2397.042 Mean 3188.667
Largest Std. Dev. 2692.567
75% 3711.917 26944.64
90% 5940.803 30624.77 Variance 7249918
10
95% 8045.32 31066.5 Skewness 3.791027
99% 14163.04 45801.71 Kurtosis 29.21398
Chú ý:
- Stata cho phép viết tắt các lệnh và tùy chọn. Trong tài liệu này, phần gạch chân dới các
lệnh có nghĩa là lệnh đó có thể viết tắt bằng ký tự trong phần gạch chân này. Ví dụ nh
lệnh use có nghĩa là có thể đợc viết tắt bởi u.
- Cú pháp của các câu lệnh trong tài liệu này đợc viết bằng tiếng Anh, cho phép ngời đọc
có thể đối chiếu với phần hớng dẫn sử dụng trong Stata.
2.Toán tử và hàm số (Operators and functions)
Các toán tử (operators)
Các toán tử trong Stata đợc ký hiệu nh sau:
Ký hiệu ý nghĩa
Số học
+ Cộng
- Trừ
* Nhân
/ Chia
^ Luỹ thừa
Quan hệ
> Lớn hơn
< Nhỏ hơn
>= Lớn hơn hoặc bằng
<= Nhỏ hơn hoặc bằng
== Bằng
~= Không bằng (khác)
!= Không bằng (khác)
Lôgíc
~ Không
| Hoặc
& Và
Chú ý:
Trong biểu thức dấu == đợc dùng cho việc kiểm định biểu thức, ví dụ nh đợc dùng sau lệnh if.
Còn dấu = đợc dùng cho lệnh tạo biến.
Ví dụ:
gen RRD=0
replace RRD=1 if reg8==1
Các hàm số (function)
Hàm số thờng đợc dùng trong biểu thức (exp) của câu lệnh Stata. Nếu coi Y là một hàm số của
f(X
1
, X
2
,, X
n
) thì lệnh về hàm số trong Stata sẽ tính giá trị của Y nếu cho các giá trị của X
i
.
Stata có 8 loại hàm số:
Mathematical functions
Statistical functions
Random numbers
String functions
Các hàm toán học
Hàm thống kê
Hàm cho số ngẫu nhiên
Hàm liên quan đến dẫy ký tự
11
Special functions
Date functions
Time-series functions
Matrix functions
Hàm đặc biệt
Hàm ngày tháng
Hàm chuỗi thời gian
Hàm ma trận
Ví dụ:
gen absx=abs(x)
gen log_exp=log(rlpcex1)
Các ký hiệu cụ thể về các hàm số này có thể xem ở mục help functions.
3. Mô tả dữ liệu (Data reporting)
3.1. Xoá bộ nhớ của Stata
Cú pháp:
clear
Lệnh này xoá các dữ liệu trong bộ nhớ của Stata, bắt đầu cho một file làm việc mới.
3.2. Hớng dẫn sử dụng lệnh Stata
Cú pháp:
help <Câu lệnh Stata>
Lệnh này hiển thị hớng dẫn sử dụng các lệnh Stata, lệnh Stata cần phải đợc gõ đầy đủ và chính
xác.
Ví dụ:
. help sum
help for sum not found
try help contents or search sum
. help summarize
help for summarize (manual: [R] summarize)
Summary statistics
.
Chú ý:
Chúng ta có thể tìm hớng dẫn sử dụng theo từ khoá bằng lệnh search. Lệnh search có thể đợc
thực hiện bằng tuỳ chọn Search ở thực đơn help.
3.3. Mô tả dữ liệu
Cú pháp:
describe [danh sách biến]
Lệnh này hiển thị thông tin chung nh tên biến, định dạng, nhãn biến của các biến đợc liệt kê bởi
danh sách biến của file số liệu đang mở. Nếu nh không có biến nào đợc chỉ ra thì lệnh describe
sẽ hiện thị thông tin của tất cả các biến.
Ví dụ:
12
. des househol year month vlssmphs
storage display value
variable name type format label variable label
househol long %12.0g household code
year float %9.0g Year of interview
month float %9.0g Month of interview
vlssmphs byte %8.0g 1 if vlss, 2 if mphs
source
3.4. Hiển thị giá trị của các biến
Cú pháp:
list [danh sách biến] [điều kiện] [phạm vi] [, nolabel]
Lệnh này hiển thị giá trị của các biến đợc chỉ ra bởi danh sách biến. Tuỳ chọn nolable cho phép
hiển thị giá trị số chứ không phải là giá trị gán nhãn.
Ví dụ:
. list househol farm in 1/5
househol farm
1. 36307 farm
2. 28002 farm
3. 36017 farm
4. 32418 non farm
5. 15215 non farm
. list househol farm in 1/5, nolabel
househol farm
1. 36307 1
2. 28002 1
3. 36017 1
4. 32418 0
5. 15215 0
3.5. Hiển thị dẫy ký tự và biểu thức
Cú pháp:
display ["Dẫy (chuỗi) ký tự"] [biểu thức]
Lệnh này hiển thị dẫy ký tự hoặc giá trị của biểu thức.
Ví dụ:
. dis "So lieu VLSS 1998"
So lieu VLSS 1998
. dis 120*100/30
13
400
3.6. Sửa chữa, xem số liệu
Cú pháp:
edit [danh sách biến] [điều kiện] [phạm vi] [, nolabel]
browse [danh sách biến] [điều kiện] [phạm vi] [, nolabel]
Lệnh edit này mở cửa sổ Data editor để ngời sử dụng sửa chữa, nhập số liệu. Tuỳ chọn nolable
cho phép hiển thị giá trị số chứ không phải là giá trị gán nhãn. Lệnh này có thể đ ợc chọn từ tuỳ
chọn Data editor trong thanh thực đơn Windows.
Lệnh browse giống lệnh edit nhng không cho phép sửa chữa số liệu.
3.7. Đếm quan sát
Cú pháp:
count [điều kiện] [phạm vi]
Lệnh này đếm số quan sát đợc chỉ ra bởi điều kiện (exp) và phạm vi (range). Nếu điều kiện (exp)
và phạm vi (range) không đợc chỉ ra thì sẽ hiện thị số quan sát của tệp số liệu.
Ví dụ:
. count
5999
. count if reg7==1
859
. count if reg7==1 & urban98==1
187
. count if reg7==1 & urban98==0
672
3.8. Thống kê cơ bản
Cú pháp:
summarize [danh sách biến] [quyền số] [điều kiện] [phạm vi] [, detail]
Lệnh này tính toán và hiển thị những thống kê cơ bản của các biến đợc chỉ ra bởi danh sách
biến. Tuỳ chọn detail cho phép hiển thị thêm một số thống kê nh độ nhọn, độ lệnh và các giá trị
của thập vị phân.
Ví dụ:
. sum rlpcex1
Variable | Obs Mean Std. Dev. Min Max
+
rlpcex1 | 5999 3188.667 2692.567 357.318 45801.71
. sum rlpcex1, detail
comp.M&Reg price adj.pc tot exp
Percentiles Smallest
1% 682.9575 357.318
14
Không có nhận xét nào:
Đăng nhận xét