9 Chương 8: Các chủ đề Nâng cao và Định hướng Nghiên cứu

9.1 Lời mở đầu

Hành trình của chúng ta qua bảy chương đầu tiên đã trang bị một bộ công cụ phân tích dữ liệu định tính và dữ liệu đếm mạnh mẽ và toàn diện. Từ các phương pháp cơ bản cho bảng ngẫu nhiên, các mô hình hồi quy logistic, ordinal, Poisson, đến các mô hình log-linear, bạn đã được trang bị để giải quyết một loạt các vấn đề thực tế trong kinh tế, kinh doanh và tài chính. Tuy nhiên, thế giới phân tích dữ liệu luôn không ngừng phát triển, và có vô số các bài toán phức tạp đòi hỏi những kỹ thuật còn tinh vi hơn nữa.

Chương cuối cùng này được thiết kế như một “cửa sổ nhìn ra thế giới rộng lớn hơn”. Mục tiêu của chúng tôi không phải là cung cấp một hướng dẫn chi tiết cho từng phương pháp – bởi mỗi chủ đề dưới đây đều có thể là nội dung cho cả một học phần riêng – mà là để giới thiệu một cách tổng quan về một số chủ đề nâng cao và các định hướng nghiên cứu thời sự. Chúng tôi mong muốn khơi dậy trí tò mò, chỉ ra những vấn đề mà các công cụ đã học chưa giải quyết được, và cung cấp cho bạn một “tấm bản đồ” với những con đường tự học và nghiên cứu trong tương lai.

Hãy coi chương này như một lời mời gọi bạn tiếp tục dấn thân sâu hơn vào lĩnh vực phân tích dữ liệu đầy hấp dẫn. Những khái niệm được giới thiệu ở đây, từ việc xử lý các dạng dữ liệu phức tạp như dữ liệu bảng, đến các phương pháp tiếp cận hoàn toàn mới như Phân tích cấu trúc tiềm ẩn, Thống kê Bayes, hay các thuật toán Học máy, sẽ là những chìa khóa mở ra những hiểu biết sâu sắc và những cơ hội nghiên cứu đột phá.

9.2 Mục tiêu chương

Sau khi hoàn thành chương này, người học sẽ có khả năng:

Giới thiệu một số mô hình và kỹ thuật phân tích dữ liệu phức tạp hơn.
Nhận biết được các tình huống cần đến các mô hình nâng cao.
Cung cấp định hướng cho các nghiên cứu sâu hơn trong lĩnh vực kinh tế, kinh doanh và tài chính.
Biết được các gói R chính để bắt đầu tìm hiểu và áp dụng các kỹ thuật này.

9.3 Phân tích dữ liệu bảng (Panel Data) với biến định tính

Dữ liệu bảng (hay dữ liệu dọc - longitudinal data) là loại dữ liệu trong đó chúng ta quan sát nhiều đối tượng (cá nhân, công ty, quốc gia) lặp đi lặp lại qua nhiều thời kỳ. Loại dữ liệu này cực kỳ giá trị vì nó cho phép chúng ta kiểm soát các đặc điểm không đổi theo thời gian của từng đối tượng (unobserved heterogeneity), dù các đặc điểm đó có được đo lường hay không.

9.3.1 Mô hình Hiệu ứng Cố định (Fixed Effects - FE) Logit

Bài toán: Làm thế nào để ước lượng tác động của một biến (ví dụ: thu nhập) lên một quyết định (ví dụ: có tham gia công đoàn không) sau khi đã loại bỏ hoàn toàn ảnh hưởng của tất cả các yếu tố cố định của cá nhân đó (ví dụ: năng lực bẩm sinh, tính cách, nền tảng gia đình)?
Ý tưởng: Mô hình FE Logit hoạt động bằng cách chỉ sử dụng các đối tượng có sự thay đổi trong biến phản hồi \(Y\) qua thời gian. Mô hình ước lượng các hệ số bằng cách sử dụng một hàm hợp lý có điều kiện (conditional likelihood).
Ưu điểm: Ước lượng không bị chệch ngay cả khi các yếu tố cố định có tương quan với biến độc lập.
Nhược điểm: Không thể ước lượng tác động của các biến không đổi theo thời gian (ví dụ: giới tính, chủng tộc).
Ví dụ R: Gói bife (hàm bife) là một lựa chọn hiện đại.

9.3.2 Mô hình Hiệu ứng Ngẫu nhiên (Random Effects - RE) Logit/Probit

Ý tưởng: Coi các hiệu ứng riêng của từng đối tượng là một thành phần ngẫu nhiên tuân theo một phân phối xác suất nào đó.
Giả định quan trọng: Các hiệu ứng ngẫu nhiên này không tương quan với các biến độc lập trong mô hình. Đây là một giả định mạnh và nếu bị vi phạm, kết quả sẽ bị chệch.
Ưu điểm: Hiệu quả hơn FE (cho sai số chuẩn nhỏ hơn), có thể ước lượng tác động của các biến không đổi theo thời gian.
Ví dụ R: Gói pglm (hàm pglm). Kiểm định Hausman thường được dùng để lựa chọn giữa FE và RE.

9.3.3 Phương trình Ước lượng Tổng quát (Generalized Estimating Equations - GEE)

Ý tưởng: Một cách tiếp cận khác, tập trung vào việc ước lượng hiệu ứng trung bình trong dân số (population-average effect). GEE không yêu cầu chỉ định đầy đủ phân phối xác suất chung của dữ liệu, mà chỉ cần xác định đúng mối quan hệ trung bình-phương sai và một “cấu trúc tương quan làm việc” cho các quan sát lặp lại.
Ưu điểm: Bền vững (robust) với việc chỉ định sai cấu trúc tương quan. Rất hữu ích trong các nghiên cứu dịch tễ học hoặc đánh giá chính sách công.
Ví dụ R: Gói geepack (hàm geeglm).

9.4 Mô hình Cấu trúc Tiềm ẩn (Latent Class Models - LCA)

Bài toán: Chúng ta có một tập hợp các biến định tính quan sát được (ví dụ, câu trả lời cho 5 câu hỏi về thói quen mua sắm) và nghi ngờ rằng các mẫu trả lời này được điều khiển bởi một biến định tính không quan sát được (tiềm ẩn). Biến tiềm ẩn này đại diện cho các “phân khúc” hoặc “kiểu” khác nhau trong dân số (ví dụ: “người mua sắm tiết kiệm”, “người mua sắm trung thành với thương hiệu”, “người mua sắm bốc đồng”).
Mục tiêu của LCA:
1. Xác định số lượng các lớp (phân khúc) tiềm ẩn đó.
2. Ước tính tỷ lệ của mỗi lớp trong dân số.
3. Mô tả đặc điểm của mỗi lớp.
4. Phân loại từng cá nhân vào lớp mà họ có khả năng thuộc về nhất.
Ứng dụng: Phân khúc thị trường, chẩn đoán y tế, xác định hệ tư tưởng chính trị.
Ví dụ R: Gói poLCA.

# install.packages("poLCA")
library(poLCA)
# Ví dụ với dữ liệu giá trị (values) có sẵn trong poLCA
data(values)
# Công thức: 4 biến quan sát A,B,C,D, không có biến độc lập
f <- cbind(A,B,C,D) ~ 1 
# Thử mô hình 2 lớp và 3 lớp, so sánh AIC/BIC
lca_2class <- poLCA(f, values, nclass=2, nrep=10, maxiter=3000, graphs=TRUE)
lca_3class <- poLCA(f, values, nclass=3, nrep=10, maxiter=3000, graphs=TRUE)

9.5 Phân tích Tương ứng (Correspondence Analysis - CA)

Bài toán: Làm thế nào để trực quan hóa mối liên hệ trong một bảng ngẫu nhiên lớn (ví dụ, 10x8) một cách hiệu quả?
Mục tiêu của CA: Là một kỹ thuật giảm chiều dữ liệu cho dữ liệu định tính, tương tự như Phân tích Thành phần Chính (PCA). Nó tạo ra một bản đồ hai chiều (hoặc ba chiều) để trực quan hóa mối liên hệ giữa các phạm trù của biến dòng và biến cột.
Cách diễn giải bản đồ CA:
- Vị trí tương đối: Các điểm (đại diện cho các phạm trù) nằm gần nhau có xu hướng xuất hiện cùng nhau.
- Khoảng cách từ gốc tọa độ: Các điểm nằm xa gốc tọa độ là những điểm đặc trưng, có đóng góp nhiều nhất vào mối liên hệ chung.
Ứng dụng: Tạo bản đồ định vị thương hiệu, phân tích mối liên hệ văn hóa-xã hội.
Ví dụ R: Gói ca, FactoMineR.

# install.packages("ca")
library(ca)
data("smoke") # Dữ liệu ví dụ trong gói ca
ca_smoke <- ca(smoke)
plot(ca_smoke, main="Bản đồ Phân tích Tương ứng")
png(filename="images/Hình_8_1.png", width=800, height=600)
plot(ca_smoke, main="Bản đồ Phân tích Tương ứng: Mức độ Hút thuốc và Cấp bậc Nhân viên")
dev.off()

9.6 Phân tích Bayes cho dữ liệu định tính

Toàn bộ các phương pháp chúng ta đã học đều thuộc trường phái Thống kê Tần suất (Frequentist). Thống kê Bayes (Bayesian) là một trường phái lớn khác, coi các tham số mô hình là các biến ngẫu nhiên và sử dụng dữ liệu để cập nhật niềm tin về chúng.

Định lý Bayes: \(P(\beta|Data) \propto P(Data|\beta) \times P(\beta)\)
- Phân phối Hậu nghiệm (Posterior): \(P(\beta|Data)\) - kết quả cuối cùng.
- Hàm Hợp lý (Likelihood): \(P(Data|\beta)\) - thông tin từ dữ liệu.
- Phân phối Tiền nghiệm (Prior): \(P(\beta)\) - niềm tin ban đầu của chúng ta.
Ưu điểm: Cho phép kết hợp kiến thức có sẵn, diễn giải khoảng tin cậy trực quan hơn (khoảng đáng tin cậy), hoạt động tốt với các mô hình phức tạp.
Ví dụ R: Gói rstanarm và brms cung cấp cú pháp tương tự glm.

# install.packages("rstanarm")
library(rstanarm)
# Xây dựng lại mô hình logistic cho dữ liệu Pima bằng phương pháp Bayes
data(Pima.tr, package="MASS")
bayes_pima_model <- stan_glm(type ~ bmi + age + glu, 
                             data = Pima.tr, 
                             family = binomial(link = "logit"),
                             chains = 2, iter = 1000) # Cài đặt cho chạy nhanh hơn
summary(bayes_pima_model)

9.7 Giới thiệu về Machine Learning cho bài toán phân loại

9.7.1 Góc nhìn khác: Suy diễn vs. Dự báo

Mô hình thống kê (GLM, …): Thường tập trung vào suy diễn (inference) và giải thích (explanation). Mục tiêu là hiểu mối quan hệ giữa các biến và đánh giá ý nghĩa thống kê của chúng.
Học máy (Machine Learning - ML): Thường tập trung vào dự báo (prediction). Mục tiêu là xây dựng một mô hình có độ chính xác cao nhất trên dữ liệu mới, đôi khi phải hy sinh khả năng diễn giải (mô hình “hộp đen”).

9.7.2 Cây quyết định (Decision Trees) và Rừng ngẫu nhiên (Random Forest)

Cây quyết định: Là một mô hình giống như một sơ đồ luồng, phân chia dữ liệu một cách đệ quy dựa trên các biến độc lập để tạo ra các nhóm “thuần nhất” nhất có thể về mặt kết quả.
- Ưu điểm: Rất dễ diễn giải, không cần giả định về phân phối.
- Nhược điểm: Dễ bị overfitting.
Rừng ngẫu nhiên (Random Forest): Là một thuật toán học máy tập hợp (ensemble learning). Nó xây dựng hàng trăm hoặc hàng nghìn cây quyết định trên các mẫu con ngẫu nhiên của dữ liệu và các tập con ngẫu nhiên của các biến, sau đó lấy kết quả dự báo trung bình (hoặc bỏ phiếu đa số) của tất cả các cây.
- Ưu điểm: Thường có độ chính xác dự báo rất cao, bền vững với overfitting, có thể xếp hạng mức độ quan trọng của biến.
- Nhược điểm: Là một mô hình “hộp đen”, khó diễn giải.
Ví dụ R: Gói rpart (cho cây) và randomForest.

# install.packages("randomForest")
library(randomForest)
library(MASS)
data(Pima.tr)
data(Pima.te)

# Xây dựng mô hình Random Forest
# Cần xử lý NA trong dữ liệu Pima (nếu có)
Pima.tr2 <- na.omit(Pima.tr) # Loại bỏ NA để RF chạy
set.seed(801)
rf_model <- randomForest(type ~ ., data = Pima.tr2)
print(rf_model)

# Dự báo trên tập kiểm tra
pred_rf <- predict(rf_model, newdata = na.omit(Pima.te))
# Đánh giá độ chính xác
confusion_matrix_rf <- table(Predicted = pred_rf, Actual = na.omit(Pima.te)$type)
accuracy_rf <- sum(diag(confusion_matrix_rf)) / sum(confusion_matrix_rf)
cat("Độ chính xác của Random Forest trên tập Test:", accuracy_rf, "\n")

9.8 Các định hướng ứng dụng và nghiên cứu thời sự

Tài chính:
- Chấm điểm tín dụng động: Sử dụng dữ liệu bảng (Panel Logit).
- Phát hiện gian lận: Các mô hình cho dữ liệu không cân bằng, kết hợp GLM và ML.
Marketing:
- Phân khúc thị trường: Phân tích Cấu trúc Tiềm ẩn (LCA).
- Định vị thương hiệu: Phân tích Tương ứng (CA).
- Hệ thống gợi ý: Sử dụng các mô hình ML phức tạp hơn.
Kinh tế học và Chính sách công:
- Phân tích thị trường lao động: Sử dụng các mô hình dữ liệu bảng.
- Đánh giá tác động chính sách: Sử dụng GEE.
Hướng nghiên cứu mới: Kết hợp các phương pháp (ví dụ, dùng LCA để tạo biến phân khúc rồi đưa vào mô hình logistic), phân tích dữ liệu văn bản (text data) định tính, mô hình hóa lựa chọn rời rạc phức tạp (discrete choice models).

9.9 Hướng dẫn Tự học và Tài liệu tham khảo

Cách tốt nhất để học là “học bằng cách làm”:

Chọn một chủ đề bạn thấy hứng thú.
Đọc một chương hoặc một bài báo giới thiệu về nó.
Tìm một bộ dữ liệu thực tế liên quan.
Thử áp dụng các hàm R đã được gợi ý, đọc kỹ phần trợ giúp (?tên_hàm) và các vignette của gói.
Cố gắng diễn giải kết quả và so sánh với những gì bạn mong đợi.

Chủ đề	Gói R chính để bắt đầu	Sách/Nguồn tham khảo gợi ý
Panel Data Models for Categorical Y	`pglm`, `geepack`, `bife`	Hsiao, C. (2014). Analysis of Panel Data. Cambridge University Press. Baltagi, B. (2013). Econometric Analysis of Panel Data. Wiley.
Latent Class Analysis (LCA)	`poLCA`, `mclust`	Collins, L. M., & Lanza, S. T. (2010). Latent Class and Latent Transition Analysis. Wiley.
Correspondence Analysis (CA)	`ca`, `FactoMineR`	Greenacre, M. J. (2007). Correspondence Analysis in Practice. Chapman and Hall/CRC.
Bayesian Analysis	`rstanarm`, `brms`	McElreath, R. (2020). Statistical Rethinking: A Bayesian Course with Examples in R and Stan. CRC Press.
Machine Learning (Classification)	`rpart`, `randomForest`, `caret`	James, G., et al. (2021). An Introduction to Statistical Learning: with Applications in R. Springer.