Phương pháp ước lượng

Estimated reading: 28 minutes 111 views

Các phương pháp thường được sử dụng trong survival analysis bao gồm:

Ước lượng Kaplan-Meier

Ước lượng Kaplan-Meier là một phương pháp được sử dụng trong survival analysis để ước tính hàm số sống sót (survival function) của các nhóm trong một nghiên cứu. Hàm số sống sót mô tả xác suất của việc một cá nhân còn sống sót sau một khoảng thời gian nhất định, và thường được sử dụng để đánh giá nguy cơ sự kiện trong một nhóm người.

Để ước tính hàm số sống sót bằng phương pháp Kaplan-Meier, ta sử dụng dữ liệu về thời gian sự kiện (time-to-event) và trạng thái sự kiện (event status) của từng cá nhân trong nghiên cứu. Thời gian sự kiện là khoảng thời gian từ khi bắt đầu quan sát đến khi sự kiện xảy ra, ví dụ như thời gian từ khi bắt đầu chữa trị cho đến khi bệnh tái phát hoặc tử vong. Trạng thái sự kiện được đánh dấu là 0 nếu sự kiện không xảy ra trong khoảng thời gian quan sát, và 1 nếu sự kiện xảy ra.

Phương pháp Kaplan-Meier chia dữ liệu thành các khoảng thời gian rời rạc (time intervals), và tính toán tỉ lệ sống sót của các cá nhân trong từng khoảng thời gian này. Tỉ lệ sống sót được tính bằng cách chia số cá nhân sống sót trong khoảng thời gian đó cho tổng số cá nhân ở đầu khoảng thời gian đó. Tỷ lệ sống sót được tính cho từng khoảng thời gian và được ghi lại trên đồ thị Kaplan-Meier.

Đồ thị Kaplan-Meier cho thấy hình dạng của hàm số sống sót trong suốt khoảng thời gian quan sát. Hình dạng này có thể bị ảnh hưởng bởi các yếu tố như độ tuổi, giới tính, hoặc bệnh lý cơ bản của các cá nhân trong nghiên cứu. Hàm số sống sót thường giảm theo thời gian, nhưng có thể có các điểm uốn cong (khi tỉ lệ sống sót tăng lên sau khi giảm xuống) hoặc các trụ (khi tỉ lệ sống sót giữ nguyên trong một khoảng thời gian).

Phương pháp Kaplan-Meier cũng cho phép so sánh hàm số sống sót giữa các nhóm trong nghiên cứu. Ví dụ, trong một nghiên cứu về hiệu quả của hai loại thuốc điều trị ung thư, ta có thể sử dụng phương pháp Kaplan-Meier để so sánh tỉ lệ sống sót giữa nhóm sử dụng thuốc A và nhóm sử dụng thuốc B. Ta chia dữ liệu thành các khoảng thời gian rời rạc (ví dụ 6 tháng, 12 tháng, 18 tháng, và 24 tháng), và tính toán tỉ lệ sống sót của từng nhóm trong mỗi khoảng thời gian này. Tỷ lệ sống sót của từng nhóm được ghi lại trên đồ thị Kaplan-Meier, cho phép ta so sánh hình dạng và tỉ lệ sống sót giữa hai nhóm.

Phương pháp Kaplan-Meier cũng cho phép tính toán các thống kê mô tả, chẳng hạn như thời gian trung bình sống sót, thời gian sống sót trung vị, và tỷ lệ sống sót tại một thời điểm cụ thể. Phương pháp này cũng có thể được sử dụng để kiểm tra giả định về sự đồng nhất của hàm số sống sót giữa các nhóm, và để phát hiện sự khác biệt trong hàm số sống sót giữa các nhóm bằng cách sử dụng kiểm định log-rank.

Phương pháp Kaplan-Meier là một trong những phương pháp quan trọng trong Survival analysis, với những ưu điểm và nhược điểm riêng.

Ưu và nhược điểm của phương pháp Kaplan-Meier

Ưu điểm

Phương pháp Kaplan-Meier là một phương pháp đơn giản, dễ sử dụng và hiệu quả để mô hình hóa thời gian đến sự kiện và tính toán tỉ lệ sống sót.
Phương pháp này có khả năng xử lý được dữ liệu bị khuyết hoặc bị kiểm duyệt (censored).
Phương pháp Kaplan-Meier cho phép so sánh giữa hai hoặc nhiều nhóm về tỉ lệ sống sót và đưa ra những kết luận rõ ràng về sự khác biệt giữa các nhóm đó.

Nhược điểm

Phương pháp Kaplan-Meier có một số giới hạn, ví dụ như không thể ước lượng các thông số liên quan đến tỉ lệ sống sót ở các thời điểm cụ thể trong quá trình quan sát.
Phương pháp này cũng không thể ước lượng độ lệch chuẩn và sai số chuẩn xác của các ước lượng của nó.
Phương pháp Kaplan-Meier cũng không phù hợp trong các trường hợp khi cần mô hình hóa sự ảnh hưởng của các biến độc lập lên thời gian đến sự kiện.

Tóm lại, phương pháp Kaplan-Meier là một phương pháp đơn giản và hiệu quả để mô hình hóa thời gian đến sự kiện và tính toán tỉ lệ sống sót. Tuy nhiên, phương pháp này có một số giới hạn và không phù hợp trong một số trường hợp phân tích. Việc lựa chọn sử dụng phương pháp này phụ thuộc vào yêu cầu và tính chất của dữ liệu nghiên cứu, và nhà nghiên cứu cần phải cân nhắc kỹ lưỡng trước khi áp dụng phương pháp Kaplan-Meier vào phân tích của mình.

Phương pháp tỉ lệ nguy cơ Cox, CPH

Trong survival analysis, chúng ta cần mô hình hóa hàm sống sót hoặc hàm tăng trưởng để đánh giá thời gian đến khi xảy ra sự kiện quan tâm. Có nhiều phương pháp để mô hình hóa hàm sống sót, nhưng phương pháp phổ biến nhất là sử dụng phương pháp (mô hình) tỉ lệ nguy cơ Cox, CPH (Cox Proportional Hazard).

Mô hình tỉ lệ nguy cơ Cox là một phương pháp phân tích survival analysis được sử dụng phổ biến để mô hình hóa nguy cơ xảy ra sự kiện trong khoảng thời gian. Mô hình này được đặt tên theo tên nhà thống kê David Cox, người đã phát triển phương pháp này vào năm 1972.

Giả định của mô hình CPH là hàm tăng trưởng của nguy cơ là một hàm số với thời gian và các biến độc lập, nhưng hàm tăng trưởng này không phụ thuộc vào thời gian. Nói cách khác, mô hình giả định rằng các yếu tố ảnh hưởng đến nguy cơ sự kiện là không đổi theo thời gian, và chỉ ảnh hưởng đến nguy cơ một lần, không ảnh hưởng lặp lại.

Mô hình CPH được biểu diễn bằng phương trình sau:

$$h\left(t,X\right) = h_0 t * \text{exp}\left(\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p\right)$$

Trong đó:

$h\left(t,X\right)$ là hàm nguy cơ (hazard function) tại thời điểm t với các giá trị của các biến độc lập là $X_1, X_2, \dots X_p$
$h_0 t$ là hàm nguy cơ gốc (hazard baseline function), với các giá trị nguy cơ tại thời điểm t với các giá trị của các biến độc lập bằng 0
$\beta_1, \beta_2, \dots \beta_p$ là các hệ số ước lượng của mô hình, biểu thị cho ảnh hưởng của các biến độc lập lên nguy cơ.

Mô hình CPH giả định rằng giá trị của các hệ số ước lượng $\beta_1, \beta_2, \dots \beta_p$ là không đổi theo thời gian, và độ lớn của ảnh hưởng của mỗi biến độc lập lên nguy cơ là không đổi theo thời gian.

Để ước lượng các hệ số ước lượng của mô hình CPH, chúng ta thường sử dụng phương pháp tối đa hóa hàm hợp lý riêng phần (partial likelihood). Phương pháp này tối đa hóa xác suất của các sự kiện xảy ra trong một nhóm cho trước, dựa trên các giá trị của biến độc lập.

Sau khi đã xác định được các hệ số ước lượng của mô hình CPH, chúng ta có thể sử dụng mô hình này để dự đoán thời gian đến khi xảy ra sự kiện, hoặc để xác định ảnh hưởng của các biến độc lập lên nguy cơ sự kiện.

Mô hình CPH giả định rằng hàm tăng trưởng của nguy cơ (hazard function) là một hàm số với thời gian và các biến độc lập, nhưng hàm tăng trưởng này không phụ thuộc vào thời gian. Mô hình này được xây dựng bằng cách phân tích tần số của các sự kiện xảy ra trong khoảng thời gian nhỏ và so sánh giữa nhóm khác nhau để tìm ra các yếu tố ảnh hưởng đến thời gian đến khi xảy ra sự kiện.

Một ưu điểm của mô hình CPH là nó cho phép mô hình hóa các biến độc lập liên tục hoặc rời rạc, và các biến độc lập có thể có tương tác với nhau. Ngoài ra, mô hình CPH cũng cho phép mô hình hóa các biến độc lập không phải là số, chẳng hạn như biến nhị phân, biến nhóm, hoặc biến hạng mục.

Tuy nhiên, mô hình CPH cũng có một số giới hạn. Một trong những giới hạn đó là giả định về độc lập giữa các quan sát. Nếu các quan sát không độc lập, ví dụ như các quan sát trong cùng một gia đình hoặc cùng một nhóm, thì mô hình CPH sẽ không đưa ra kết quả chính xác. Một giới hạn khác của mô hình CPH là nó không thể mô hình hóa các biến phụ thuộc vào thời gian, chẳng hạn như mức độ nợ của một khách hàng trong ngành tài chính.

Tuy nhiên, với ưu điểm và giới hạn của mô hình CPH, nó vẫn là một phương pháp mô hình hóa nguy cơ sự kiện được sử dụng rộng rãi trong nhiều lĩnh vực, đặc biệt là trong kinh tế. Các ứng dụng của mô hình CPH trong kinh tế bao gồm mô hình hóa sự kiện như thất nghiệp, phá sản, và chuyển đổi công việc, để đưa ra các chính sách và quyết định kinh tế hiệu quả.

Ngoài ra, còn có các phương pháp khác để mô hình hóa hàm survival như mô hình Weibull, mô hình Exponential, mô hình Nelson-Aalen, v.v. Mỗi phương pháp sẽ có các giả định và giới hạn riêng, vì vậy chúng ta cần lựa chọn phương pháp phù hợp với dữ liệu và mục đích nghiên cứu của mình.

Sau khi đã xác định được phương pháp mô hình hóa hàm sống còn phù hợp, chúng ta cần đánh giá mô hình để xác định độ chính xác của mô hình. Các phương pháp đánh giá mô hình thường được sử dụng như là kiểm tra tuyến tính của hệ số nguy cơ, kiểm tra phân phối đồng nhất của nguy cơ, độ chính xác của mô hình, v.v.

Tóm lại, trong survival analysis, chúng ta sử dụng các phương pháp mô hình hóa hàm survival để đánh giá thời gian đến khi xảy ra sự kiện quan tâm. Mô hình tỷ lệ nguy cơ Cox là phương pháp phổ biến nhất được sử dụng trong nghiên cứu survival analysis. Sau khi đã xác định được phương pháp mô hình hóa hàm sống còn phù hợp, chúng ta cần đánh giá mô hình để xác định độ chính xác của mô hình.

Mô hình AFT

Xây dựng mô hình AFT

Các mô hình tăng tốc thời gian xảy ra sự kiện, AFT (Accelerated Failure Time Model) là một dạng mô hình survival analysis tham số, trong đó các biến giải thích $X = \left(X_1, X_2, \dots X_p\right)$ đóng vai trò là nhân tố làm tăng hay giảm thời gian sống sót của đối tượng so với hàm sống sót cơ sở. Mô hình AFT cho phép mô hình hóa thời gian sự kiện dựa trên giả định rằng các đại lượng đầu vào tuyến tính hóa được thời gian trung bình để sự kiện xảy ra, được gọi là thời gian đến sự kiện. Mô hình AFT giải quyết vấn đề của mô hình CPH khi hàm số hành vi của các biến độc lập không phải là tỉ lệ suốt thời gian.

Trong AFT model, thời gian đến sự kiện T được mô hình hóa như sau:

$$T = \text{exp}\left(\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p\right)*\varepsilon $$

Trong đó,

$\beta_0$ là hệ số điều chỉnh đối với mức độ tăng trưởng (acceleration) của thời gian đến sự kiện,
$X_1, X_2, \dots X_p$ là các biến độc lập,
$\beta_1, \beta_2, \dots \beta_p$ là hệ số ước tính cho mỗi biến độc lập, và
$\varepsilon$ là một biến ngẫu nhiên theo phân phối Gumbel.

Mô hình AFT được ước tính thông qua phương pháp tỉ lệ hợp lý tối đa, ML (maximum likelihood). Các ước tính hệ số và giá trị p tương ứng cho mỗi biến độc lập được tính toán để đánh giá tác động của chúng lên thời gian đến sự kiện.

Mô hình AFT cũng cung cấp các đại lượng đánh giá khác nhau, bao gồm thời gian trung bình đến sự kiện và tỷ lệ tồn tại (survival rate) tại một thời điểm nhất định. Điều này cho phép nhà nghiên cứu đánh giá tác động của các biến độc lập lên sự kiện và các kết quả liên quan, như cảnh báo trước sự kiện, thời gian nghỉ việc, hoặc thời gian phục hồi sau một sự kiện y tế.

Tóm lại, mô hình AFT là một phương pháp quan trọng trong survival analysis, cho phép mô hình hóa thời gian đến sự kiện dựa trên giả định rằng các biến đầu vào tuyến tính hóa được thời gian trung bình để sự kiện xảy ra. Phương pháp này giải quyết vấn đề của mô hình CPH khi hàm số hành vi của các biến độc lập không phải là tỉ lệ suốt thời gian, cung cấp các đại lượng đánh giá khác nhau và cho phép nhà nghiên cứu đánh giá tác động của các biến độc lập lên thời gian đến sự kiện và các kết quả liên quan.

Ứng dụng của mô hình AFT

Một trong những ứng dụng của mô hình AFT trong kinh tế là trong lĩnh vực bảo hiểm. Mô hình AFT được sử dụng để ước tính thời gian đến khi khách hàng yêu cầu chi trả bảo hiểm. Các biến đầu vào có thể bao gồm tuổi của khách hàng, giới tính, thu nhập, tình trạng hôn nhân và nghề nghiệp. Kết quả của mô hình sẽ giúp các công ty bảo hiểm đánh giá rủi ro và tính toán phí bảo hiểm cho từng khách hàng dựa trên yếu tố rủi ro của họ.

Mô hình AFT cũng được sử dụng trong nghiên cứu y tế để đánh giá tác động của các yếu tố khác nhau lên thời gian phục hồi sau một sự kiện y tế, chẳng hạn như thời gian phục hồi sau khi phẫu thuật. Các biến đầu vào có thể bao gồm tuổi, giới tính, trọng lượng cơ thể, tình trạng sức khỏe và các chỉ số y tế khác. Kết quả của mô hình có thể giúp bác sĩ đánh giá các yếu tố ảnh hưởng đến thời gian phục hồi của bệnh nhân và đưa ra quyết định điều trị thích hợp.

Ngoài ra, mô hình AFT còn được sử dụng trong nghiên cứu thị trường để đánh giá tác động của các biến độc lập lên thời gian đến khi một sản phẩm hoặc dịch vụ bị thay thế bởi một sản phẩm hoặc dịch vụ mới. Các biến đầu vào có thể bao gồm giá cả, chất lượng, tính năng và các yếu tố liên quan đến thị trường và người tiêu dùng. Kết quả của mô hình sẽ giúp các doanh nghiệp đánh giá tác động của các biến độc lập và đưa ra các quyết định chiến lược để tăng cường sự cạnh tranh trên thị trường.

Tóm lại, mô hình AFT là một phương pháp quan trọng trong survival analysis, có nhiều ứng dụng trong nhiều lĩnh vực khác nhau của kinh tế và y học. Nó cung cấp các công cụ và phương pháp để đánh giá tác động của các biến độc lập lên thời gian đến sự kiện và các kết quả liên quan, giúp cho các nhà nghiên cứu và chuyên gia đưa ra các quyết định quan trọng trong kinh tế và y học.

Tuy nhiên, cũng như các phương pháp khác trong survival analysis, mô hình AFT cũng có một số hạn chế. Trong trường hợp phân phối không đủ thông tin để xác định hàm phân phối của thời gian đến sự kiện, việc sử dụng các mô hình AFT có thể dẫn đến kết quả sai lệch. Ngoài ra, mô hình AFT cũng không phù hợp trong trường hợp khi tỉ lệ rủi ro không ổn định theo thời gian.

Ưu và nhược điểm của mô hình AFT

Ưu điểm

Mô hình AFT là phương pháp linh hoạt và đa dạng, có thể áp dụng cho nhiều loại dữ liệu và đáp ứng được nhiều yêu cầu khác nhau của các nghiên cứu.
Mô hình AFT có tính linh hoạt cao trong việc mô hình hóa thời gian đến sự kiện, vì nó không giới hạn phân phối của thời gian, mà cho phép sử dụng bất kỳ phân phối nào phù hợp với dữ liệu của bạn.
Mô hình AFT thường có độ chính xác và hiệu quả cao hơn so với một số phương pháp khác, như mô hình CPH, đặc biệt là trong những trường hợp khi tỉ lệ rủi ro không ổn định theo thời gian.

Nhược điểm

Mô hình AFT đòi hỏi một số giả định về phân phối của thời gian đến sự kiện và giá trị của các biến độc lập. Nếu các giả định này không được đáp ứng, kết quả có thể bị sai lệch.
Mô hình AFT cũng có thể khó khăn trong việc xử lý dữ liệu bị khuyết hoặc bị kiểm duyệt, đặc biệt là trong trường hợp dữ liệu bị kiểm duyệt rất nhiều.
Mô hình AFT cũng có tính phức tạp cao, vì nó đòi hỏi các phép tính toán phức tạp và việc ước lượng các tham số của mô hình cũng có thể khó khăn.

So sánh các phương pháp CPH, AFT và Kaplan-Meier

Dưới đây là bảng so sánh giữa các phương pháp CPH, AFT và Kaplan-Meier:

Phương pháp	Ưu điểm	Nhược điểm
CPH	– Có thể xử lý cả biến liên tục và rời rạc	– Giả định về tỷ số tỉ lệ cần được kiểm tra
	– Tính toán hiệu quả và nhanh chóng	– Phụ thuộc vào giả định về phân phối của dữ liệu
	– Cho phép điều chỉnh cho các biến độc lập khác	– Không phù hợp cho các trường hợp khi rủi ro không ổn định
	– Đánh giá hiệu quả của các yếu tố và xác định nguyên nhân phát sinh sự kiện	– Đòi hỏi mẫu dữ liệu lớn để đảm bảo độ tin cậy của kết quả
	– Phân tích cạnh tranh giữa các sự kiện
	– Định lượng sự ảnh hưởng của các yếu tố
	– Phù hợp cho các trường hợp sự kiện xảy ra trong suốt thời gian
AFT	– Phù hợp cho các trường hợp sự kiện xảy ra trong suốt thời gian	– Giả định về phân phối của dữ liệu cần được kiểm tra
	– Giả định về phân phối dữ liệu ít hơn so với CPH	– Khó để đánh giá ảnh hưởng của các biến độc lập
	– Dễ hiểu và dễ giải thích	– Đòi hỏi mẫu dữ liệu lớn để đảm bảo độ tin cậy của kết quả
	– Cho phép điều chỉnh cho các biến độc lập khác	– Không cho phép phân tích cạnh tranh giữa các sự kiện
	– Không yêu cầu giả định về tỷ số tỉ lệ
	– Dễ sử dụng khi áp dụng cho các mô hình hồi quy tuyến tính
Kaplan-Meier	– Không đòi hỏi giả định về phân phối của dữ liệu	– Không thể xử lý các biến độc lập
	– Phân tích dữ liệu bị thiếu

Ngoài ra, còn một số điểm khác để so sánh giữa các phương pháp survival analysis:

Ưu điểm	CPH	AFT	Kaplan-Meier
Xử lý được dữ liệu censored	Có	Có	Có
Xác định được tốc độ xảy ra sự kiện theo thời gian	Có	Có	Không
Cho phép so sánh hiệu quả giữa các nhóm	Có	Có	Có
Dễ dàng giải thích kết quả	Không	Có	Không
Điều chỉnh được các yếu tố nhiễu	Có	Có	Không
Ưu tiên sử dụng khi có thông tin về tần số sự kiện	Không	Có	Có

Nhược điểm	CPH	AFT	Kaplan-Meier
Giả định về tỉ lệ giữa các hạng mục của biến độc lập	Cần được thỏa mãn	Cần được thỏa mãn	Không ảnh hưởng
Giả định về phân phối của đại lượng hồi quy	Cần được thỏa mãn	Cần được thỏa mãn	Không ảnh hưởng
Không đưa ra được thông tin về trung bình và phương sai của thời gian tồn tại	Không	Không	Có
Không thể tính toán được hệ số hồi quy của các biến độc lập	Không	Không	Có
Không cho phép đánh giá tác động của các yếu tố trộn lẫn	Không	Không	Có

Tóm lại, mỗi phương pháp trong survival analysis đều có ưu điểm và nhược điểm riêng. Việc lựa chọn phương pháp phù hợp sẽ phụ thuộc vào mục đích nghiên cứu, dữ liệu sẵn có và giả định của mô hình. Để đạt được kết quả tốt nhất, các nhà nghiên cứu cần cân nhắc kỹ lưỡng trước khi quyết định sử dụng phương pháp nào cho mục đích phân tích của mình.