Population variance là gì

Box Plot [Biểu đồ hộp]

Box Plot giúp bạn biểu diễn các đại lượng quan trọng của dãy số như min, max, Quartile, Interquartile Range một cách trực quan, dễ hiểu. Một Box plot có dạng như sau:

Đo lường sự biến thiên của dữ liệu [Variation of Data]

Để biết xu hướng tập trung của dữ liệu ta dùng các tham số như Mean, Median, Mode. Tuy nhiên, một câu hỏi quan trọng nữa cần phải trả lời khi xem xét một chất lượng của mẫu là “làm sao đo lường sự biến thiên [hay sự phân tán] của dữ liệu trong mẫu?” Vì có thể 2 mẫu có cùng trung bình nhưng sự biến thiên của dữ liệu là khác nhau.

Để đo lường sự biến thiên [thường so với giá trị trung bình] của dữ liệu người ta thường dùng các tham số Range [khoảng biến thiên], Interquartile Range [IQR – Khoảng tứ phân vị], Standard Deviation [độ lệch chuẩn], Variance [phương sai], Standard Error [sai số chuẩn]

Range [Khoảng biến thiên]: Được tính bằng cách lấy giá trị lớn nhất – giá trị nhỏ nhất

Range = Max – Min

Trong sample gồm 6 quan sát về thời gian chạy 100 m trong ví dụ trên ta có

Range = 25.1- 17.9 = 7.2 giây

Deviation [độ lệch]

Cả 2 tham số Range và IQR không quan tâm đến giá trị trung tâm [thường sử dụng giá trị trung bình]. Khi muốn đo lường sự phân tán của dữ liệu so với giá trị trung tâm, ta đo lường độ lệch của mỗi quan sát [cá thể] so với giá trị trung tâm. Giả sử ta sử dụng giá trị trung bình làm giá trị trung tâm, khi đó ta có tổng độ lệch của tất cả quan sát với giá trị trung bình là:


Vì tổng độ lệch này bằng 0 nên ta không thể dùng độ lệch này để mô tả sự phân tán của dữ liệu.

[Đặc trưng của số trung bình toán học [mean] là san bằng mọi bù trừ. Vì vậy khi tính tổng tất cả các độ lệch thì kết quả luôn bằng 0]

Để khắc phục vấn đề này, ta có thể sử dụng tổng các giá trị tuyệt đối các độ lệch

Để loại bỏ ảnh hưởng của kích thước mẫu [vì mỗi mẫu có kích thước khác nhau] ta chia tổng này cho kích thước mẫu, ta có:

Tuy nhiên vấn đề của giá trị tuyệt đối là tính không liên tục [discontinuity] tại gốc tọa độ [trong trường hợp này là mean] vì vậy các nhà thống kê đã tìm ra công thức tốt hơn để mô tả sự biến thiên của dữ liệu đó là phương sai [Variance] và độ lệch chuẩn [Standard Deviation].

Variance [Phương sai] và độ lệch chuẩn [Standard Deviation]

Để tránh tổng các độ lệch bằng 0 và loại bỏ ảnh hưởng của kích thước mẫu người ta tính tổng bình phương các độ lệch và chia cho kích thước mẫu trừ 1 [hiệu chỉnh]. Ta có kết quả là “trung bình tổng bình phương các độ lệch” và gọi là phương sai mẫu [Sample Variance]

Phương sai là tham số rất tốt để đo lường sự biến thiên [hay phân tán] của dữ liệu trong mẫu vì nó đã quan tâm đến độ lệch của mỗi quan sát so với số trung bình, loại bỏ ảnh hưởng của kích thước mẫu và là smooth Function. Tuy nhiên, điểm yếu của phương sai là không cùng đơn vị tính với Mean. Đơn vị tính của phương sai là bình phương của đơn vị tính của trung bình. Chẳn hạn, đơn vị tính của thời gian chạy trung bình là giây trong khí đó đơn vị tính của phương sai là giây bình phương. Để giải quyết vấn đề này, người ta lấy căn bậc 2 của phương sai và kết quả này gọi là độ lệch chuẩn [Standard Deviation]

Một vấn đề nữa cần quan tâm là mỗi lần lấy mẫu ta có 1 số trung bình [mean] và từ đó ta tính được phương sai của mẫu. Phương sai của mẫu cho biết sự biến thiên của các cá thể trong quần thể. Giả sử ta lấy mẫu k lần, và ta có k số trung bình. Để mô tả sự biến thiên của các số trung bình mẫu lấy từ tổng thể người ta sử dụng đại lượng sai số chuẩn [Standard Error –SE] được tính bằng cách lấy độ lệch chuẩn chia cho căn bậc hai của kích thước mẫu:

Tóm lại: Độ lệch chuẩn mô tả biến thiên của các cá thể trong quần thể còn sai số chuẩn mô tả sự biến thiên của các số trung bình mẫu lấy từ tổng thể. Một cách dễ hiểu nếu ta lấy mẫu k lần từ tổng thể và ta có k số trung bình mẫu thì độ lệch chuẩn của k số trung bình mẫu gọi là sai số chuẩn [chú ý k thường rất lớn, hàng triệu hay hàng tỷ lần vì trong thực tế ta không biết được số trung bình của tổng thể].

Tương quan [Correlation]

Trong lý thuyết xác suất và thống kê, hệ số tương quan [Coefficient Correlation] cho biết độ mạnh của mối quan hệ tuyến tính giữa hai biến số ngẫu nhiên. Từ tương quan [Correlation] được thành lập từ Co- [có nghĩa “together”] và Relation [quan hệ].

Hệ số tương quan giữa 2 biến có thể dương [positive] hoặc âm [negative]. Hệ số tương quan dương cho biết rằng giá trị 2 biến tăng cùng nhau còn hệ số tương quan âm thì nếu một biến tăng thì biến kia giảm.

Xem thêm: Czechia Là Gì – Vài Nét Về Cộng Hòa Séc

Độ mạnh và hướng tương quan của 2 biến được mô tả như sau:

Hệ số tương quan có thể nhận giá trị từ -1 đến 1:

Ví dụ: Có dữ liệu [bivariate] về nhiệt độ [Temperature] và doanh thu bán kem [Ice Cream Sales] như sau:

Đồ thị Scatter Plot của dữ liệu trên :

Từ Scatter Plot, ta có thể thấy rằng nhiệt độ càng cao thì doanh thu bán kem càng cao. Trong dữ liệu trên, hệ số tương quan là 0.9575[sẽ trình bày cách tính ở phần sau] và mối quan hệ giữa nhiệt độ và doanh số bán kem là rất mạnh. Hệ số tương quan dương nói rằng nhiệt độ tăng thì doanh số bán kem cũng tăng.

Tương quan không có tính nhân quả [Causation].

Cách tính hệ số tương quan [Coefficient Correlation]

Trong ví dụ trên, hệ số tương quan là 0.9575. Bây giờ sẽ trình bày cách tính hệ số này theo công thức Pearson [Pearson's Correlation].

Gọi x và y là hai biến [Trong ví dụ trên thìx là Temperature và y là Ice Cream Sales]

· Bước 1: Tính trung bình của x và y

· Bước 2: Tính độ lệch của mỗi giá trị của x với trung bình của x [lấy các giá trị của x trừ đi trung bình của x] và gọilà”a“, làm tương tự như vậy với y và gọi là “b

· Bước 3: Tính: a × b, a2b2 cho mỗi giá trị

· Bước 4: Tính tổng a × b, tổng a2 vả tổng b2

· Bước 5: Chia tổng của a × b cho căn bậc 2 của

Công thức chung để tính hệ số tương quan giữa 2 đại lượng ngẫu nhiên x và y là

Dưới đây minh họa việc tính hệ số tương quan của ví dụ trên

Các tham số đo lường xu hướng tập trung và biến thiên của dữ liệu có thể được tính dễ dàng bởi các hàm trong MS Excel. Sau đây giới thiệu một số hàm liên quan và ví dụ minh họacách tính các tham số trên trong MS Excel

Đo lường xu hướng trung [Central tendency]

AVERAGE: Tính trung bình số học [mean]

MEDIAN: Tính trung vị

MODE: Tính số mode

Đo lường độ biến thiên [Variation]

MAX – MIN : Tính Range

PERCENTILE [array, k] : Tìm phân vị thứ k của các giá trị trong một mảng dữ liệu

QUARTILE [array, 3] – QUARTILE [array, 1] : Tính Inter Quartile Range [IQR]

VAR : Tính phương sai của mẫu

VARPA: Tính phương sai tổng thể [Chú ý, công thức tính phương sai tổng thể giống như phương sai mẫu nhưng thay vì chia cho n-1 như phương sai mẫu thì chia cho n. trong đó n là kích thước mẫu]

STDEV : Tính độ lệch chuẩn của mẫu

STDEVPA Tính độ lệch chuẩn của tổng thể

Một số hàm liên quan khác

SUM : Tính tổng các số

SQRT: Căn bậc hai

CEILING : Ceiling function. CEILING[k] cho số nguyên nhỏ nhất lơn hơn k.Ví dụ : CEILING[3.5,1]=4

FLOOR : Floor function. FLOOR[k] cho số nguyên lớn nhất nhỏ hơn k. Ví dụ: FLOOR[3.5]=3]

Phương sai

Khái niệm

Phương sai trong tiếng Anh là Variance.Được kí hiệu là σ2 trong thống kê.

Trong đầu tư tài chính, phương sai lợi nhuận của các tài sản trong một danh mục đầu tư được sử dụng như một phương tiện để phân bổ tài sản một cách tốt nhất. Phương trình phương sai, trong đầu tư tài chính là công thức để so sánh hiệu quả của các thành phần trong danh mục đầu tư với nhau và so với giá trị hiệu quả trung bình.

Công thức tính phương sai

Phương sai được tính bằng cách xác định giá trị chênh lệch giữa mỗi số trong tập dữ liệu với giá trị trung bình, sau đó bình phương các chênh lệch nhằm cho chúng mang giá trị dương và không triệt tiêu lẫn nhau. Cuối cùng chia tổng số lượng quan sát trong tập dữ liệu.

Hình minh họa. Nguồn: Deepai.org

Trong đó:

xi là giá trị của quan sát thứ i

µ là giá trị trung bình của tập dữ liệu

n là số quan sát trong tập dữ liệu

Phương sai là một trong những thông số quan trọng để các nhà đầu tư xem xét phân bổ tài sản cùng với hệ số tương quan. Việc xác định phương sai của lợi nhuận tài sản giúp các nhà đầu tư phát triển danh mục đầu tư tốt hơn bằng cách tối ưu hóa sự đánh đổi giữa rủi ro và lợi nhuận với mỗi khoản đầu tư của họ.

Căn bậc hai của phương sai là độ lệch chuẩn [σ].

Cách sử dụng phương sai

Phương sai đo lường sự khác biệt đến điểm trung vị hoặc trung bình. Đối với các nhà đầu tư, sự biến động là thước đo rủi ro. Do đó, xác định phương sai có thể giúp nhà đầu tư xác định rủi ro mà họ phải chịu khi mua một chứng khoán cụ thể.

Một phương sai lớn cho biết các số trong tập dữ liệu nằm cách xa giá trị trung bình và biến động lớn, trong khi phương sai nhỏ chỉ ra điều ngược lại.

Giá trị phương sai bằng 0 chỉ ra rằng tất cả các giá trị trong một tập dữ liệu là giống hệt nhau. Hay không có sai số. Tất cả các phương sai không bằng 0 sẽ là số dương.

Ưu điểm và nhược điểm của phương sai

Các nhà thống kê sử dụng phương sai để xem các số riêng lẻ có quan hệ với nhau như thế nào trong một tập dữ liệu.

Ưu điểm của phương sai là nó xem tất cả các sai lệch so với giá trị trung bình giống nhau bất kể hướng của chúng, vì vậy chúng không bị triệt tiêu. Thực tế phương sai không thể nào bằng 0 do không thể không có sự sai số nào trong một tập dữ liệu.

Một nhược điểm của phương sai là nó tăng trọng số cho các dữ liệu ngoại lai, những dữ liệu ngoại lai có giá trị khác xa so với giá trị trung bình. Khi bình phương những giá trị này có thể sẽ làm lệch tập dữ liệu.

Hạn chế của phương sai là nó không dễ để diễn giải. Người dùng phương sai thường sử dụng nó chủ yếu để lấy căn bậc hai của nó, hay độ lệch chuẩn của tập dữ liệu.

Phương sai trong đầu tư

Phương sai là một tham số quan trọng trong phân bổ tài sản đầu tư, được sử dụng cùng với hệ số tương quan, xác định phương sai của tài sản có thể giúp nhà đầu tư phát triển danh mục đầu tư nhằm tối ưu hóa sự đánh đổi giữa rủi ro và lợi nhuận.

Tuy nhiên, rủi ro hoặc biến động thường được thể hiện dưới dạng độ lệch chuẩn thay vì phương sai bởi vì nó dễ hiểu hơn.

Ví dụ về phương sai

Xem xét một ví dụ đầu tư: Lợi nhuận cho một cổ phiếu là 10% trong năm 1, 20% vào năm 2 và -15% trong năm 3. Trung bình của ba lợi nhuận này là 5%. Sự khác biệt giữa mỗi lần hoàn vốn và giá trị trung bình là 5%, 15% và -20% cho mỗi năm liên tiếp.

Bình phương tương ứng của các độ lệch này là 25%, 225% và 400%. Tổng các độ lệch bình phương này là 650%. Ta chia tổng số 650% cho số lần hoàn vốn [3 trong trường hợp này] có được phương sai là 216,67%. Lấy căn bậc hai của phương sai mang lại độ lệch chuẩn là 14,72% cho lợi nhuận.

Chú ý khi tính toán phương sai mẫu để ước tính phương sai tổng thể, mẫu số của phương trình phương sai tđược đổi thành [N - 1] để ước lượng không bị thiên vị và không đánh giá thấp phương sai tổng thể.

[Theo Investopedia]

Hệ số tương quan [Correlation Coefficient] là gì? Ứng dụng của hệ số tương quan trong tài chính

Box Plot [Biểu vật hộp]

Box Plot khiến cho bạn màn trình diễn những đại lượng đặc trưng của hàng số nhỏng min, max, Quartile, Interquartile Range một giải pháp trực quan, dễ dàng nắm bắt. Một Box plot tất cả dạng nhỏng sau:

Đo lường sự biến hóa thiên của tài liệu [Variation of Data]


Để biết xu hướng triệu tập của tài liệu ta sử dụng các ttê mê số nhỏng Mean, Median, Mode. Tuy nhiên, một câu hỏi quan trọng đặc biệt nữa rất cần phải vấn đáp lúc xem xét một unique của mẫu mã là “làm thế nào đo lường và tính toán sự biến chuyển thiên [tốt sự phân tán] của tài liệu trong mẫu?” Vì có thể 2 mẫu gồm cùng vừa phải tuy thế sự phát triển thành thiên của tài liệu là không giống nhau.

Để thống kê giám sát sự biến hóa thiên [hay so với cái giá trị trung bình] của dữ liệu người ta hay được sử dụng những tsay đắm số Range [khoảng biến thiên], Interquartile Range [IQR – Khoảng tứ đọng phân vị], Standard Deviation [độ lệch chuẩn], Variance [phương thơm sai], Standard Error [không nên số chuẩn]

Range [Khoảng vươn lên là thiên]: Được tính bằng cách mang quý hiếm lớn nhất – cực hiếm nhỏ dại nhất

Range = Max – Min

Trong sample gồm 6 quan liêu gần kề về thời gian chạy 100 m vào ví dụ trên ta có

Range = 25.1- 17.9 = 7.2 giây

Deviation [độ lệch]

Cả 2 tđam mê số Range cùng IQR ko quyên tâm đến giá trị trung chổ chính giữa [thường thực hiện quý giá trung bình]. lúc mong mỏi đo lường và tính toán sự phân tán của dữ liệu so với mức giá trị trung trọng tâm, ta tính toán độ lệch của từng quan tiền cạnh bên [cá thể] so với giá trị trung trọng tâm. Giả sử ta sử dụng giá trị trung bình có tác dụng quý hiếm trung trung khu, khi đó ta tất cả tổng độ lệch của toàn bộ quan lại sát với mức giá trị vừa phải là:


Vì tổng độ lệch này bởi 0 bắt buộc ta cần thiết dùng độ lệch này để biểu đạt sự phân tán của dữ liệu.

[kì cục của số trung bình toán học [mean] là san bởi hầu như bù trừ. Vì vậy Lúc tính tổng toàn bộ những độ lệch thì công dụng luôn bởi 0]

Để hạn chế và khắc phục vụ việc này, ta rất có thể sử dụng tổng các cực hiếm tuyệt đối hoàn hảo các độ lệch

Để sa thải ảnh hưởng của kích thước mẫu mã [vị từng mẫu có kích thước không giống nhau] ta phân tách tổng này mang lại kích thước mẫu, ta có:

Tuy nhiên vấn đề của cực hiếm tuyệt vời nhất là tính ko thường xuyên [discontinuity] tại cội tọa độ [trong trường thích hợp này là mean] bởi vì vậy những công ty thống kê đã tìm ra cách làm tốt hơn nhằm diễn tả sự biến thiên của tài liệu chính là phương thơm không đúng [Variance] và độ lệch chuẩn chỉnh [Standard Deviation].

Variance [Phương sai] cùng độ lệch chuẩn chỉnh [Standard Deviation]

Để rời tổng những độ lệch bởi 0 cùng thải trừ tác động của form size chủng loại fan ta tính tổng bình phương các độ lệch với phân tách mang đến kích thước chủng loại trừ 1 [hiệu chỉnh]. Ta gồm công dụng là “vừa phải tổng bình phương thơm những độ lệch” và Call là phương thơm không đúng mẫu mã [Sample Variance]

Phương thơm sai là tmê mẩn số rất tốt để tính toán sự biến hóa thiên [xuất xắc phân tán] của tài liệu trong chủng loại vày nó sẽ quyên tâm mang đến độ lệch của mỗi quan tiền gần cạnh so với số mức độ vừa phải, vứt bỏ tác động của size chủng loại với là smooth Function. Tuy nhiên, nhược điểm của pmùi hương không nên là ko cùng đơn vị chức năng tính cùng với Mean. Đơn vị tính của phương không nên là bình pmùi hương của đơn vị chức năng tính của trung bình. Chẳn hạn, đơn vị chức năng tính của thời gian chạy vừa đủ là giây vào khí đó đơn vị tính của phương thơm không nên là giây bình pmùi hương. Để giải quyết sự việc này, người ta rước căn uống bậc 2 của phương sai và tác dụng này hotline là độ lệch chuẩn chỉnh [Standard Deviation]

Một vấn đề nữa cần quyên tâm là các lần rước mẫu ta có 1 số vừa đủ [mean] và từ đó ta tính được pmùi hương sai của mẫu. Phương sai của chủng loại cho thấy thêm sự đổi mới thiên của các thành viên vào quần thể. Giả sử ta đem mẫu mã k lần, với ta tất cả k số mức độ vừa phải. Để biểu đạt sự biến đổi thiên của các số trung bình mẫu mang từ tổng thể fan ta sử dụng đại lượng sai số chuẩn chỉnh [Standard Error –SE] được xem bằng cách rước độ lệch chuẩn phân tách mang lại căn bậc hai của size mẫu:

Tóm lại: Độ lệch chuẩn thể hiện vươn lên là thiên của những thành viên trong quần thể còn sai số chuẩn bộc lộ sự biến thiên của các số vừa phải mẫu đem tự tổng thể. Một bí quyết dễ hiểu nếu ta đem mẫu mã k lần từ toàn diện cùng ta có k số vừa phải chủng loại thì độ lệch chuẩn của k số vừa đủ mẫu mã call là sai số chuẩn [chú ý k thường xuyên không nhỏ, hàng triệu tuyệt mặt hàng tỷ lần vị trong thực tiễn ta lần khần được số vừa phải của tổng thể].


Tương quan tiền [Correlation]

Trong kim chỉ nan Xác Suất cùng những thống kê, hệ số tương quan [Coefficient Correlation] cho thấy độ mạnh của mối quan hệ tuyến tính thân nhì đổi thay số đột nhiên. Từ tương quan [Correlation] được Thành lập từ Co- [tất cả nghĩa "together"] và Relation [quan lại hệ].

Hệ số đối sánh giữa 2 trở thành rất có thể dương [positive] hoặc âm [negative]. Hệ số tương quan dương cho thấy rằng cực hiếm 2 biến hóa tăng cùng cả nhà còn thông số tương quan âm thì ví như một phát triển thành tăng thì thay đổi cơ sút.

Độ mạnh mẽ với hướng đối sánh của 2 biến hóa được biểu đạt nlỗi sau:


Hệ số đối sánh tương quan rất có thể dấn giá trị tự -1 mang đến 1:

Ví dụ: Có dữ liệu [bivariate] về nhiệt độ [Temperature] với doanh thu phân phối kem [Ice Cream Sales] nhỏng sau:


Đồ thị Scatter Plot của dữ liệu bên trên :

Từ Scatter Plot, ta hoàn toàn có thể thấy rằng nhiệt độ càng cao thì doanh thu phân phối kem càng tốt. Trong tài liệu bên trên, hệ số đối sánh tương quan là 0.9575[đang trình bày cách tính ở phần sau] và mối quan hệ giữa nhiệt độ cùng doanh thu buôn bán kem là rất bạo gan. Hệ số đối sánh dương bảo rằng ánh sáng tăng thì doanh số cung cấp kem cũng tăng.

Tương quan liêu không tồn tại tính nhân quả [Causation].

Cách tính thông số đối sánh [Coefficient Correlation]

Trong ví dụ trên, thông số đối sánh tương quan là 0.9575. Bây tiếng đang trình diễn cách tính thông số này theo phương pháp Pearson [Pearson's Correlation].

Điện thoại tư vấn x cùng y là nhì vươn lên là [Trong ví dụ bên trên thìx là Temperature và y là Ice Cream Sales]

· Cách 1: Tính mức độ vừa phải của x và y

· Bước 2: Tính độ lệch của mỗi quý hiếm của x với vừa phải của x [lấy những giá trị của x trừ đi vừa đủ của x] và gọilà"a", làm cho giống như điều này cùng với y và Gọi là "b"

· Cách 3: Tính: a × b, a2b2 cho mỗi giá chỉ trị

· Bước 4: Tính tổng a × b, tổng a2 vả tổng b2

· Bước 5: Chia tổng của a × b cho cnạp năng lượng bậc 2 của

Công thức tầm thường nhằm tính thông số tương quan thân 2 đại lượng thốt nhiên x cùng y là

Dưới đây minh họa việc tính hệ số đối sánh của ví dụ trên


Các tsi mê số đo lường xu hướng triệu tập với biến thiên của tài liệu rất có thể được tính dễ dàng vì chưng các hàm vào MS Excel. Sau trên đây ra mắt một trong những hàm liên quan với ví dụ minc họaphương pháp tính các tđắm đuối số bên trên trong MS Excel

Đo lường xu hướng trung [Central tendency]

AVERAGE: Tính trung bình số học tập [mean]

MEDIAN: Tính trung vị

MODE: Tính số mode

Đo lường độ thay đổi thiên [Variation]

MAX – MIN : Tính Range

PERCENTILE [array, k] : Tìm phân vị máy k của các quý giá vào một mảng dữ liệu

QUARTILE [array, 3] – QUARTILE [array, 1] : Tính Inter Quartile Range [IQR]

VAR : Tính phương không nên của mẫu mã

VARPA: Tính pmùi hương không đúng toàn diện và tổng thể [Chú ý, phương pháp tính phương sai tổng thể và toàn diện giống hệt như pmùi hương không nên mẫu mã tuy thế vậy do phân tách đến n-1 nhỏng phương không nên chủng loại thì phân chia cho n. trong đó n là form size mẫu]

STDEV : Tính độ lệch chuẩn chỉnh của chủng loại

STDEVPA Tính độ lệch chuẩn của toàn diện và tổng thể

Một số hàm tương quan khác


SUM : Tính tổng những số

SQRT: Căn bậc hai

CEILING : Ceiling function. CEILING[k] cho số nguyên nhỏ dại độc nhất vô nhị lơn hơn k.lấy ví dụ như : CEILING[3.5,1]=4

FLOOR : Floor function. FLOOR[k] mang lại số nguyên lớn số 1 nhỏ dại hơn k. Ví dụ: FLOOR[3.5]=3]

Sample và Population

October 13, 2016 Comments 0 Comment

Khi bắt đầu học môn Quant, có một phần tôi luôn thắc mắc khi nói về Sample [mẫu] và Population [tạm dịch là tổng thể]. Trong công thức tính Meanthì cả sample mean [thường được ký hiệu $\bar x$ ]và population mean[thường được ký hiệuμ]đều được chia cho n [với giả sử n là số lượng quan sát trong samplehoặc trong population].

Còn với standard deviation thì không như vậy, mẫu số của sample sd là [n-1] còn của population sd là n. Tại sao lại có phân biệt đối xử như vậy?

Ok, tôi so sánh công thức tính độ lệch chuẩn [standard deviation – sd] của một population:

$$ \sigma\ =\ \sqrt{\frac{\sum_{i=1}^N \left[X_i\ –\ \mu_X\right]^2}{N}} $$

và độ lệch chuẩn của một sample :

$$ s\ =\ \sqrt{\frac{\sum_{i=1}^n \left[X_i\ –\ \bar X\right]^2}{n\ –\ 1}} $$

Hmm, có thể nhận ra ngay điểm khác biệt rõ rệt đó là mẫu số: với population là N, và với sample là [n-1]. Vào ngày thi, khi áp lực là vô cùng lớn, 2 công thức này có thể rất dễ bị lẫn lộn. Và đương nhiên là, trong 3 đáp án các ông có thể khoanh sẽ bao gồm cả đáp án sai – đáp án sử dụng n thay vì [n-1] [hoặc tương tự thế].

Rõ ràng là tôi có thể học vẹt/thuộc lòng 2 công thức, nhưng mà tôi đã nói ở trên rồi, trong khi thi áp lực là rất kinh khủng; và nếu hiểu được bản chất [as people always say], sẽ dễ dàng hơn để tránh được những cái bẫy được đưa ra.

Vậy vì sao là n và [n-1] ?

Ý tưởng ở đây là tôi muốn trung bình của các phương sai của tất cả các sample có thể phải bằng phương sai của population. Như vậy tôi sẽ không “thiên vị” [bias]. Để hiểu rõ hơn, tôi cho các ông ví dụ như sau nhé:

Giả sử có 3 lá bài với các giá trị 0, 2, 4. Như vậy:

$Population\ mean = \frac{[0+2+4]}{3} = 2 $
$ Population\ variance = \frac{[0-2]^2 + [2-2]^2 + [4-2]^2}{3} = \frac{8}{3} $

Bây giờ tôi xét tất cả những cách lấy các mẫu-có-2-phần-tử. Có 9 cách như vậy, và tôi có bảng sau:

MẫuTrung bình mẫuPhương sai – mẫu số [n-1]Phương sai – mẫu số [n]
[0,0]000
[0,2]121
[0,4]284
[2,0]121
[2,2]200
[2,4]321
[4,0]284
[4,2]321
[4,4]400

Có thể thấy:

Với mẫu số [n-1], trung bình của các phương sai của tất cả mẫu-2-phần-tử có thể là: [0+2+8+2+0+2+8+2+0]/9 = 24/9 = 8/3, bằng với phương sai của population.

Với mẫu số [n], trung bình của các phương sai của tất cả mẫu-2-phần-tử có thể là: [0+1+4+1+0+1+4+1+0]/9 = 12/9 = 4/3, khác với phương sai của population.

Và đó là lý do tại sao phải sử dụng [n-1] thay vì n khi tính phương sai/độ lệch chuẩn cho sample. Ý tưởng là để điều chỉnh cho những “thiên vị” [bias] khi chọn mẫu. Nếu tôi lấy 1 sample gồm 30 quan sát, rồi tính mean cho sample đó; sau đó lấy tiếp 30 quan sát khác, thì chỉ có 29 quan sát được phép tự do thay đổi nếu như muốn sample mean không đổi. Nói cách khác, sau khi lấy ngẫu nhiên 29 quan sát đầu tiên, chỉ có duy nhất 1 giá trị cho quan sát thứ 30 đưa lại giá trị sample mean như cũ. Như vậy, tôi đã mất 1 bậc tự do[1 degree of freedom].Số 1 này chính là điều chỉnh từ n thành [n-1].

[Nguồn tham khảo://nebula.deanza.edu/~bloom/math20/m10divideby_nminus1.pdf]

Share this:

  • Click to share on Facebook [Opens in new window]
  • Click to share on Twitter [Opens in new window]

Variance là gì

admin-14/08/2021116

Thống kê là một phần rất quan trọng trong Machine Learning. Trong bài viết này sẽ đề cập đến các khái niệm cơ bản nhất trong thống kê thông qua các công thức toán học và lập trình dùng Python.

Bạn đang xem: Variance là gì

Bạn đang xem: Sample variance là gì

Mô tả một tập dữ liệu

Giả sử rằng bạn chạy 100 m trong sáu lần, mỗi lần chạy bạn dùng đồng hồ đo lại thời gian chạy [tính bằng giây] và kết quả 6 lần chạy của bạn gồm sáu giá trị [còn gọi là quan sát]. Một phương pháp được dùng trong thống kê là sử dụng bảng thu thập dữ liệu như sau:



Để thấy được mối quan hệ giữa các dữ liệu một cách trực quan, chúng ta có thể dùng biểu đồ cột như sau:



Biểu đồ trên có thể được tạo bằng cách dùng thư viện matplotlib:

từ matplotlib nhập pyplot dưới dạng pltLan_chay = So_giay = xs = plt.bar[xs, So_giay]plt.ylabel[“Số giây”]plt.xlabel[“Lần chạy”]plt.title[“Thống kê số giây sau mỗi lần chạy”]plt.xticks[, Lan_chay]plt.show[]Từ bảng dữ liệu hay biểu đồ, chúng ta có thể suy ra một số thông tin đơn giản như lần chạy nào có số giây lớn nhất hay nhỏ nhất nhưng chúng ta vẫn cần biết nhiều hơn.

Xu hướng tập trung [Central Tendencies]

Một trong những phương pháp đo lường phổ biến dùng trong thống kê là đo lường theo xu hướng tập trung dựa trên 3 tham số là số trung bình [mean hay average], số trung vị [media] và số mode – là số có tần suất xuất hiện nhiều nhất trong mẫu.

Nghĩa là

Mean có thể được tính một cách đơn giản bằng tổng của tất cả các giá trị của dữ liệu trong mẫu chia cho kích thước mẫu. Ví dụ tính số giây trung bình của 6 lần chạy như sau:



Với si là số giây của lần chạy thứ i. Hàm tính Mean của một mẫu có thể được định nghĩa đơn giản bằng Python như sau:

Lan_chay = So_giay = # Định nghĩa hàm tính meandef mean[mau]: return sum[mau]/len[mau]print[mean[So_giay]]Trung bìnhTrong lý thuyết xác suất và thống kê, nếu m là số trung vị [Median] của một tập mẫu nào đó thì 1/2 số phần tử trong tập mẫu đó có giá trị nhỏ hơn hay bằng m và một nửa còn lại có giá trị bằng hoặc lớn hơn m.

Median được tính như sau: Sắp xếp dữ liệu và lấy giá trị ở giữa. Nếu số giá trị là một số chẳn thì median là trung bình của 2 giá trị ở giữa. Để hiểu hơn về trung vị chúng ta có thể xem xét hai tập mẫu sau:

S1 = {7, 3, 2, 4, 3}

S2 = {8, 7, 5, 6, 4,3}

Trước khi tính trung vị, chúng ta cần sắp xếp dữ liệu theo thứ tự tăng [hay giảm] dần. Tập S1 có thể được viết lại

S1 = {2,3,3,4,7}

Và S2 có thể được viết lại:

S2 = {3,4,5,6,7,8}

Như vậy Median[S1] = 3 và Median[S2] = [5+6]/2 = 5.5. Đoạn mã sau minh họa hàm tính Median:

# Hàm tính Median của một tập mẫudef median[v]: n = len[v] # sắp xếp tập mẫu sorted_v = sorted[v] midpoint = n // 2 if n % 2 == 1: # nếu số phần tử của tập mẫu là lẻ thì Median là phần tử ở giữa sau khi # tập mẫu được sắp xếp return sorted_v else: # nếu số phần tử của tập mẫu là chẵn thì Median là Median của hai phần tử # ở giữa sau khi tập mẫu được sắp xếp lo = midpoint – 1 hi = midpoint return [sorted_v + sorted_v] / 2Lượng tửDạng tổng quát của Median là Quantile– là những giá trị [hay điểm cắt [cut points]] chia tập mẫu thành p phần có số phần tử bằng nhau. Khi đó ta có thể gọi các điểm này là p-quantiles. Median 2-quantiles. Một Quantile phổ biến khác dùng trong xác suất và thống kê gọi là Tứ phân vị [quartile] //vi.wikipedia.org/wiki/T%E1%BB%A9_ph%C3%A2n_v%E1%BB%8B là 4-quantiles. Xem danh sách các quantiles tại //en.wikipedia.org/wiki/Quantile

Hàm Python sau sẽ định nghĩa một hàm quantile trả về một quantile theo tỉ lệ p:

def quantile [x, p]: p_index = int [p * len [x]] return sorted [x]Chế độ Mode là số có tần suất xuất hiện nhiều nhất trong tập mẫu. Xem xét các tập mẫu và Mode của chúng:

S1 = {1, 1, 3, 3, 3, 4} -> Mode [S1] = 3 vì 3 xuất hiện nhiều nhất trong S1

S2 = {1, 2, 3} -> Mode[S2] = {1,2,3} vì các số 1,2,3 có số lần xuất hiện bằng nhau là 1

S3 = {1, 2, 2, 1} -> Mode[S3] = {1,2} vì các số 1,2 có số lần xuất hiện bằng nhau là 2

Đoạn mã Python sau định nghĩa hàm mode trả về các phần tử Mode:

từ bộ sưu tập nhập CounterS1 = S2 = S3 = def mode [x]: counts = Counter [x] max_count = max [counts.values ​​[]] trả về print [mode [S1]] # print [mode [S2]] # print [mode [S3]] #

Đo lường sự biến thiên của dữ liệu [Variation of Data]

Để đo lường sự biến thiên hay [thường so với giá trị trung bình] của dữ liệu người ta thường dùng các tham số Range [khoảng biến thiên], Interquartile Range [IQR – Khoảng tứ phân vị], Standard Deviation [độ lệch chuẩn], Variance [phương sai], Standard Error [sai số chuẩn].

Range [Khoảng biến thiên]

Được tính bằng cách lấy giá trị lớn nhất trừ giá trị nhỏ nhất trong mẫu. Đoạn mã Python sau mô tả cách tính Range:

def data_range[x]: return max[x] – min[x]Ví dụ trong mẫu gồm 6 quan sát về thời gian chạy 100 m ở trên ta có:

Range = 25.1- 17.9 = 7.2 giây

Deviation [độ lệch]

Trong thống kê, khi muốn đo lường sự phân tán của dữ liệu so với giá trị trung tâm ta dùng khái niệm độ lệch [deviation]. Giả sử ta sử dụng giá trị trung bình làm giá trị trung tâm, khi đó ta có tổng độ lệch của tất cả quan sát với giá trị trung bình trong mẫu có n giá trị là:



Vì các giá trị si có thể lớn, bằng hay nhỏ hơn Mean nên giá trị độ lệch mỗi lần quan sát sẽ có những giá trị âm, dương hay 0 và điều này sẽ dẫn đến kết quả tổng độ lệch d có thể bằng 0. Để tránh sự bất tiện này, chúng ta sẽ dùng giá trị tuyệt đối cho các độ lệch và cũng để không bị ảnh hưởng từ kích thước mẫu chúng ta sẽ dùng công thức tổng độ lệch như sau:



Tuy nhiên, vấn đề của giá trị tuyệt đối là tính không liên tục tại gốc tọa độ nên chúng ta sẽ sử dụng các công cụ khác để đo lường sự phân tán của dữ liệu như phương sai [variance] và độ lệch chuẩn [standard deviation].

Phương sai [variance] và độ lệch chuẩn [standard deviation]

Trong xác suất thống kê có hai khái niệm cơ bản là dân số [tạm dịch: quần thể] và mẫu vật. Population là một tập hợp có số lượng lớn các cá thể [hay các tên gọi khác như phần tử, thành viên, v.v.] và một sample là một tập con hay tập mẫu của population. Để tiện việc minh họa, các khái niệm hay công thức trong bài viết này được áp dụng trên các sample thay vì population.

Xem thêm: Ngân Hàng Ưu Đãi Tiền Gửi Tiết Kiệm Và Tiền Gửi Có Kỳ Hạn Và Không Kỳ Hạn

Vì hạn chế của giá trị tuyệt đối trong công thức tính độ lệch nên chúng ta có thể sử dụng khái niệm phương sai [variance] để đo lường sự phân tán của dữ liệu. Phương sai áp dụng cho tập mẫu [sample] gồm n phần tử gọi là phương sai mẫu [sample variance] có công thức như sau:


Vấn đề dùng [n-1] hay N liên quan đến các khái niệm ước lượng chệch [biased estimator] và ước lượng không chệch [unbiased estimator]. Có thể tìm hiểu thêm tại //stats.stackexchange.com/questions/17890/what-is-the-difference-between-n-and-n-1-in-calculating-population-variance

Phương sai là tham số rất tốt để đo lường sự biến thiên [hay phân tán] của dữ liệu trong mẫu vì nó đã quan tâm đến độ lệch của mỗi quan sát so với số trung bình, loại bỏ ảnh hưởng của kích thước mẫu và là hàm mượt. Tuy nhiên, điểm yếu của phương sai là không cùng đơn vị tính với Mean. Đơn vị tính của phương sai là bình phương của đơn vị tính của trung bình. Chẳn hạn, đơn vị tính của thời gian chạy trung bình là giây trong khí đó đơn vị tính của phương sai là giây bình phương. Để giải quyết vấn đề này, người ta lấy căn bậc 2 của phương sai và kết quả này gọi là độ lệch chuẩn [Standard Deviation]. Công thức độ lệch chuẩn [áp dụng trên tập mẫu]:


Các hàm Python sau dùng để tính phương sai mẫu và độ lệch chuẩn mẫu:

# Tính tổng phương thức sum_of_squares [s]: return sum [s_i * s_i for s_i, s_i in zip [s, s]] # Định nghĩa hàm tính toán nghĩa là [s]: return sum [s] / len [s] # [các] độ lệch bias tính: s_Mean = mean [s] return # phương sai saidef tính toán: n = len [s] d = lệch [s] trả về sum_of_squares [d] / [n – 1] # tính lệch chu kỳ chuẩn độ lệch chuẩn: trả về math.sqrt [phương sai [s ]]

Tính tương quan [Correlation]

Trong lý thuyết xác suất và thống kê, hệ số tương quan [Coefficient Correlation] cho biết độ mạnh của mối quan hệ tuyến tính giữa hai biến số ngẫu nhiên. Từ tương quan [Correlation] được thành lập từ Co- [có nghĩa “together”] và Relation [quan hệ].

Hệ số tương quan giữa 2 biến có thể dương [positive] hoặc âm [negative]. Hệ số tương quan dương cho biết rằng giá trị 2 biến tăng cùng nhau còn hệ số tương quan âm thì nếu một biến tăng thì biến kia giảm.

Một khái niệm quan trọng khác liên quan đến tính tương quan là hiệp phương sai [covariance]. Nếu phương sai dùng để đo lường sự biến thiên của một biến ngẫu nhiên [hay dữ liệu trên một tập mẫu] thì hiệp phương sai đo lường sự biến thiên của hai biến ngẫu nhiên [hay dữ liệu trên hai tập mẫu cùng số cá thể]. Công thức hiệp phương sai của hai biến [hay hai tập mẫu có cùng n cá thể] x, y:


Với sdx và sdy tương ứng là độ lệch chuẩn của x và y.

Đoạn mã Python dùng để tính hệ số tương quan r như sau:

def dot[x,y]: return sum[x_i * y_i for x_i, y_i in zip[x, y]]# hiệp phương saidef covariance[x, y]: n = len[x] return dot[deviation[x], deviation[y]] / [n – 1]# tính hệ số tương quandef correlation[x, y]: stdev_x = standard_deviation[x] stdev_y = standard_deviation[y] if stdev_x > 0 and stdev_y > 0: return covariance[x, y] / [stdev_x * stdev_y] else: return 0Xét một ví dụ về mối tương quan giữa nhiệt độ [Temprature] và doanh số bán kem [Ice Cream Sales] như sau:


Qua đồ thị chúng ta thấy rằng, nhiệt độ càng cao thì doanh số bán kem càng tăng. Hệ số tương quan và đồ thị của hai biến nhiệt độ và doanh số bán kem có thể được mô tả qua các dòng mã Python:

Nhiệt độ = Ice_Cream_Sales = plt.scatter [Nhiệt độ, Ice_Cream_Sales] plt.show [] in [tương quan [Nhiệt độ, Ice_Cream_Sales]] # 0.9575Hệ số tương quan sẽ đan xen 0,9575.

Tương quan không có tính nhân quả [Causation].

Xem thêm: Bình Luận Kgf/Cm2 Là Gì ? Tổng Quan & Đổi Đơn Vị Kgf/Cm2 Là Gì

Kết luận

Qua bài viết này chúng ta đã tìm hiểu các khái niệm cơ bản nhất trong thống kê – một lĩnh vực có vai trò quan trọng trong Machine Learning. Bài tiếp theo chúng ta sẽ tìm hiểu các khái niệm trong một lĩnh vực có quan hệ vô cùng mật thiết với thống kê là xác suất và cũng có vai trò cực kỳ quan trọng trong Machine Learning.

Thống kê là một phần rất quan trọng trong Machine Learning. Trong bài viết này sẽ đề cập đến các khái niệm cơ bản nhất trong thống kê thông qua các công thức toán học và lập trình dùng Python.

Bạn đang xem: Variance là gì

Bạn đang xem: Sample variance là gì

Mô tả một tập dữ liệu

Giả sử rằng bạn chạy 100 m trong sáu lần, mỗi lần chạy bạn dùng đồng hồ đo lại thời gian chạy [tính bằng giây] và kết quả 6 lần chạy của bạn gồm sáu giá trị [còn gọi là quan sát]. Một phương pháp được dùng trong thống kê là sử dụng bảng thu thập dữ liệu như sau:



Để thấy được mối quan hệ giữa các dữ liệu một cách trực quan, chúng ta có thể dùng biểu đồ cột như sau:



Biểu đồ trên có thể được tạo bằng cách dùng thư viện matplotlib:

từ matplotlib nhập pyplot dưới dạng pltLan_chay = So_giay = xs = plt.bar[xs, So_giay]plt.ylabel[“Số giây”]plt.xlabel[“Lần chạy”]plt.title[“Thống kê số giây sau mỗi lần chạy”]plt.xticks[, Lan_chay]plt.show[]Từ bảng dữ liệu hay biểu đồ, chúng ta có thể suy ra một số thông tin đơn giản như lần chạy nào có số giây lớn nhất hay nhỏ nhất nhưng chúng ta vẫn cần biết nhiều hơn.

Xu hướng tập trung [Central Tendencies]

Một trong những phương pháp đo lường phổ biến dùng trong thống kê là đo lường theo xu hướng tập trung dựa trên 3 tham số là số trung bình [mean hay average], số trung vị [media] và số mode – là số có tần suất xuất hiện nhiều nhất trong mẫu.

Nghĩa là

Mean có thể được tính một cách đơn giản bằng tổng của tất cả các giá trị của dữ liệu trong mẫu chia cho kích thước mẫu. Ví dụ tính số giây trung bình của 6 lần chạy như sau:



Với si là số giây của lần chạy thứ i. Hàm tính Mean của một mẫu có thể được định nghĩa đơn giản bằng Python như sau:

Lan_chay = So_giay = # Định nghĩa hàm tính meandef mean[mau]: return sum[mau]/len[mau]print[mean[So_giay]]Trung bìnhTrong lý thuyết xác suất và thống kê, nếu m là số trung vị [Median] của một tập mẫu nào đó thì 1/2 số phần tử trong tập mẫu đó có giá trị nhỏ hơn hay bằng m và một nửa còn lại có giá trị bằng hoặc lớn hơn m.

Median được tính như sau: Sắp xếp dữ liệu và lấy giá trị ở giữa. Nếu số giá trị là một số chẳn thì median là trung bình của 2 giá trị ở giữa. Để hiểu hơn về trung vị chúng ta có thể xem xét hai tập mẫu sau:

S1 = {7, 3, 2, 4, 3}

S2 = {8, 7, 5, 6, 4,3}

Trước khi tính trung vị, chúng ta cần sắp xếp dữ liệu theo thứ tự tăng [hay giảm] dần. Tập S1 có thể được viết lại

S1 = {2,3,3,4,7}

Và S2 có thể được viết lại:

S2 = {3,4,5,6,7,8}

Như vậy Median[S1] = 3 và Median[S2] = [5+6]/2 = 5.5. Đoạn mã sau minh họa hàm tính Median:

# Hàm tính Median của một tập mẫudef median[v]: n = len[v] # sắp xếp tập mẫu sorted_v = sorted[v] midpoint = n // 2 if n % 2 == 1: # nếu số phần tử của tập mẫu là lẻ thì Median là phần tử ở giữa sau khi # tập mẫu được sắp xếp return sorted_v else: # nếu số phần tử của tập mẫu là chẵn thì Median là Median của hai phần tử # ở giữa sau khi tập mẫu được sắp xếp lo = midpoint – 1 hi = midpoint return [sorted_v + sorted_v] / 2Lượng tửDạng tổng quát của Median là Quantile– là những giá trị [hay điểm cắt [cut points]] chia tập mẫu thành p phần có số phần tử bằng nhau. Khi đó ta có thể gọi các điểm này là p-quantiles. Median 2-quantiles. Một Quantile phổ biến khác dùng trong xác suất và thống kê gọi là Tứ phân vị [quartile] //vi.wikipedia.org/wiki/T%E1%BB%A9_ph%C3%A2n_v%E1%BB%8B là 4-quantiles. Xem danh sách các quantiles tại //en.wikipedia.org/wiki/Quantile

Hàm Python sau sẽ định nghĩa một hàm quantile trả về một quantile theo tỉ lệ p:

def quantile [x, p]: p_index = int [p * len [x]] return sorted [x]Chế độ Mode là số có tần suất xuất hiện nhiều nhất trong tập mẫu. Xem xét các tập mẫu và Mode của chúng:

S1 = {1, 1, 3, 3, 3, 4} -> Mode [S1] = 3 vì 3 xuất hiện nhiều nhất trong S1

S2 = {1, 2, 3} -> Mode[S2] = {1,2,3} vì các số 1,2,3 có số lần xuất hiện bằng nhau là 1

S3 = {1, 2, 2, 1} -> Mode[S3] = {1,2} vì các số 1,2 có số lần xuất hiện bằng nhau là 2

Đoạn mã Python sau định nghĩa hàm mode trả về các phần tử Mode:

từ bộ sưu tập nhập CounterS1 = S2 = S3 = def mode [x]: counts = Counter [x] max_count = max [counts.values ​​[]] trả về print [mode [S1]] # print [mode [S2]] # print [mode [S3]] #

Đo lường sự biến thiên của dữ liệu [Variation of Data]

Để đo lường sự biến thiên hay [thường so với giá trị trung bình] của dữ liệu người ta thường dùng các tham số Range [khoảng biến thiên], Interquartile Range [IQR – Khoảng tứ phân vị], Standard Deviation [độ lệch chuẩn], Variance [phương sai], Standard Error [sai số chuẩn].

Range [Khoảng biến thiên]

Được tính bằng cách lấy giá trị lớn nhất trừ giá trị nhỏ nhất trong mẫu. Đoạn mã Python sau mô tả cách tính Range:

def data_range[x]: return max[x] – min[x]Ví dụ trong mẫu gồm 6 quan sát về thời gian chạy 100 m ở trên ta có:

Range = 25.1- 17.9 = 7.2 giây

Deviation [độ lệch]

Trong thống kê, khi muốn đo lường sự phân tán của dữ liệu so với giá trị trung tâm ta dùng khái niệm độ lệch [deviation]. Giả sử ta sử dụng giá trị trung bình làm giá trị trung tâm, khi đó ta có tổng độ lệch của tất cả quan sát với giá trị trung bình trong mẫu có n giá trị là:



Vì các giá trị si có thể lớn, bằng hay nhỏ hơn Mean nên giá trị độ lệch mỗi lần quan sát sẽ có những giá trị âm, dương hay 0 và điều này sẽ dẫn đến kết quả tổng độ lệch d có thể bằng 0. Để tránh sự bất tiện này, chúng ta sẽ dùng giá trị tuyệt đối cho các độ lệch và cũng để không bị ảnh hưởng từ kích thước mẫu chúng ta sẽ dùng công thức tổng độ lệch như sau:



Tuy nhiên, vấn đề của giá trị tuyệt đối là tính không liên tục tại gốc tọa độ nên chúng ta sẽ sử dụng các công cụ khác để đo lường sự phân tán của dữ liệu như phương sai [variance] và độ lệch chuẩn [standard deviation].

Phương sai [variance] và độ lệch chuẩn [standard deviation]

Trong xác suất thống kê có hai khái niệm cơ bản là dân số [tạm dịch: quần thể] và mẫu vật. Population là một tập hợp có số lượng lớn các cá thể [hay các tên gọi khác như phần tử, thành viên, v.v.] và một sample là một tập con hay tập mẫu của population. Để tiện việc minh họa, các khái niệm hay công thức trong bài viết này được áp dụng trên các sample thay vì population.

Xem thêm: Ngân Hàng Ưu Đãi Tiền Gửi Tiết Kiệm Và Tiền Gửi Có Kỳ Hạn Và Không Kỳ Hạn

Vì hạn chế của giá trị tuyệt đối trong công thức tính độ lệch nên chúng ta có thể sử dụng khái niệm phương sai [variance] để đo lường sự phân tán của dữ liệu. Phương sai áp dụng cho tập mẫu [sample] gồm n phần tử gọi là phương sai mẫu [sample variance] có công thức như sau:


Vấn đề dùng [n-1] hay N liên quan đến các khái niệm ước lượng chệch [biased estimator] và ước lượng không chệch [unbiased estimator]. Có thể tìm hiểu thêm tại //stats.stackexchange.com/questions/17890/what-is-the-difference-between-n-and-n-1-in-calculating-population-variance

Phương sai là tham số rất tốt để đo lường sự biến thiên [hay phân tán] của dữ liệu trong mẫu vì nó đã quan tâm đến độ lệch của mỗi quan sát so với số trung bình, loại bỏ ảnh hưởng của kích thước mẫu và là hàm mượt. Tuy nhiên, điểm yếu của phương sai là không cùng đơn vị tính với Mean. Đơn vị tính của phương sai là bình phương của đơn vị tính của trung bình. Chẳn hạn, đơn vị tính của thời gian chạy trung bình là giây trong khí đó đơn vị tính của phương sai là giây bình phương. Để giải quyết vấn đề này, người ta lấy căn bậc 2 của phương sai và kết quả này gọi là độ lệch chuẩn [Standard Deviation]. Công thức độ lệch chuẩn [áp dụng trên tập mẫu]:


Các hàm Python sau dùng để tính phương sai mẫu và độ lệch chuẩn mẫu:

# Tính tổng phương thức sum_of_squares [s]: return sum [s_i * s_i for s_i, s_i in zip [s, s]] # Định nghĩa hàm tính toán nghĩa là [s]: return sum [s] / len [s] # [các] độ lệch bias tính: s_Mean = mean [s] return # phương sai saidef tính toán: n = len [s] d = lệch [s] trả về sum_of_squares [d] / [n – 1] # tính lệch chu kỳ chuẩn độ lệch chuẩn: trả về math.sqrt [phương sai [s ]]

Tính tương quan [Correlation]

Trong lý thuyết xác suất và thống kê, hệ số tương quan [Coefficient Correlation] cho biết độ mạnh của mối quan hệ tuyến tính giữa hai biến số ngẫu nhiên. Từ tương quan [Correlation] được thành lập từ Co- [có nghĩa “together”] và Relation [quan hệ].

Hệ số tương quan giữa 2 biến có thể dương [positive] hoặc âm [negative]. Hệ số tương quan dương cho biết rằng giá trị 2 biến tăng cùng nhau còn hệ số tương quan âm thì nếu một biến tăng thì biến kia giảm.

Một khái niệm quan trọng khác liên quan đến tính tương quan là hiệp phương sai [covariance]. Nếu phương sai dùng để đo lường sự biến thiên của một biến ngẫu nhiên [hay dữ liệu trên một tập mẫu] thì hiệp phương sai đo lường sự biến thiên của hai biến ngẫu nhiên [hay dữ liệu trên hai tập mẫu cùng số cá thể]. Công thức hiệp phương sai của hai biến [hay hai tập mẫu có cùng n cá thể] x, y:


Với sdx và sdy tương ứng là độ lệch chuẩn của x và y.

Đoạn mã Python dùng để tính hệ số tương quan r như sau:

def dot[x,y]: return sum[x_i * y_i for x_i, y_i in zip[x, y]]# hiệp phương saidef covariance[x, y]: n = len[x] return dot[deviation[x], deviation[y]] / [n – 1]# tính hệ số tương quandef correlation[x, y]: stdev_x = standard_deviation[x] stdev_y = standard_deviation[y] if stdev_x > 0 and stdev_y > 0: return covariance[x, y] / [stdev_x * stdev_y] else: return 0Xét một ví dụ về mối tương quan giữa nhiệt độ [Temprature] và doanh số bán kem [Ice Cream Sales] như sau:


Qua đồ thị chúng ta thấy rằng, nhiệt độ càng cao thì doanh số bán kem càng tăng. Hệ số tương quan và đồ thị của hai biến nhiệt độ và doanh số bán kem có thể được mô tả qua các dòng mã Python:

Nhiệt độ = Ice_Cream_Sales = plt.scatter [Nhiệt độ, Ice_Cream_Sales] plt.show [] in [tương quan [Nhiệt độ, Ice_Cream_Sales]] # 0.9575Hệ số tương quan sẽ đan xen 0,9575.

Tương quan không có tính nhân quả [Causation].

Xem thêm: Bình Luận Kgf/Cm2 Là Gì ? Tổng Quan & Đổi Đơn Vị Kgf/Cm2 Là Gì

Kết luận

Qua bài viết này chúng ta đã tìm hiểu các khái niệm cơ bản nhất trong thống kê – một lĩnh vực có vai trò quan trọng trong Machine Learning. Bài tiếp theo chúng ta sẽ tìm hiểu các khái niệm trong một lĩnh vực có quan hệ vô cùng mật thiết với thống kê là xác suất và cũng có vai trò cực kỳ quan trọng trong Machine Learning.

Box Plot [Biểu đồ hộp]

Box Plot giúp bạn biểu diễn các đại lượng quan trọng của dãy số như min, max, Quartile, Interquartile Range một cách trực quan, dễ hiểu. Một Box plot có dạng như sau:

Đo lường sự biến thiên của dữ liệu [Variation of Data]


Để biết xu hướng tập trung của dữ liệu ta dùng các tham số như Mean, Median, Mode. Tuy nhiên, một câu hỏi quan trọng nữa cần phải trả lời khi xem xét một chất lượng của mẫu là “làm sao đo lường sự biến thiên [hay sự phân tán] của dữ liệu trong mẫu?” Vì có thể 2 mẫu có cùng trung bình nhưng sự biến thiên của dữ liệu là khác nhau.

Để đo lường sự biến thiên [thường so với giá trị trung bình] của dữ liệu người ta thường dùng các tham số Range [khoảng biến thiên], Interquartile Range [IQR – Khoảng tứ phân vị], Standard Deviation [độ lệch chuẩn], Variance [phương sai], Standard Error [sai số chuẩn]

Range [Khoảng biến thiên]: Được tí;nh bằng cách lấy giá trị lớn nhất – giá trị nhỏ nhất

Range = Max – Min

Trong sample gồm 6 quan sát về thời gian chạy 100 m trong ví; dụ trên ta có

Range = 25.1- 17.9 = 7.2 giây

Deviation [độ lệch]

Cả 2 tham số Range và IQR không quan tâm đến giá trị trung tâm [thường sử dụng giá trị trung bình]. Khi muốn đo lường sự phân tán của dữ liệu so với giá trị trung tâm, ta đo lường độ lệch của mỗi quan sát [cá thể] so với giá trị trung tâm. Giả sử ta sử dụng giá trị trung bình làm giá trị trung tâm, khi đó ta có tổng độ lệch của tất cả quan sát với giá trị trung bình là:


Vì tổng độ lệch này bằng 0 nên ta không thể dùng độ lệch này để mô tả sự phân tán của dữ liệu.

[Đặc trưng của số trung bình toán học [mean] là san bằng mọi bù trừ. Vì vậy khi tí;nh tổng tất cả các độ lệch thì kết quả luôn bằng 0]

Để khắc phục vấn đề này, ta có thể sử dụng tổng các giá trị tuyệt đối các độ lệch

Để loại bỏ ảnh hưởng của kí;ch thước mẫu [vì mỗi mẫu có kí;ch thước khác nhau] ta chia tổng này cho kí;ch thước mẫu, ta có:

Tuy nhiên vấn đề của giá trị tuyệt đối là tí;nh không liên tục [discontinuity] tại gốc tọa độ [trong trường hợp này là mean] vì vậy các nhà thống kê đã tìm ra công thức tốt hơn để mô tả sự biến thiên của dữ liệu đó là phương sai [Variance] và độ lệch chuẩn [Standard Deviation].

Variance [Phương sai] và độ lệch chuẩn [Standard Deviation]

Để tránh tổng các độ lệch bằng 0 và loại bỏ ảnh hưởng của kí;ch thước mẫu người ta tí;nh tổng bình phương các độ lệch và chia cho kí;ch thước mẫu trừ 1 [hiệu chỉnh]. Ta có kết quả là “trung bình tổng bình phương các độ lệch” và gọi là phương sai mẫu [Sample Variance]

Phương sai là tham số rất tốt để đo lường sự biến thiên [hay phân tán] của dữ liệu trong mẫu vì nó đã quan tâm đến độ lệch của mỗi quan sát so với số trung bình, loại bỏ ảnh hưởng của kí;ch thước mẫu và là smooth Function. Tuy nhiên, điểm yếu của phương sai là không cùng đơn vị tí;nh với Mean. Đơn vị tí;nh của phương sai là bình phương của đơn vị tí;nh của trung bình. Chẳn hạn, đơn vị tí;nh của thời gian chạy trung bình là giây trong khí; đó đơn vị tí;nh của phương sai là giây bình phương. Để giải quyết vấn đề này, người ta lấy căn bậc 2 của phương sai và kết quả này gọi là độ lệch chuẩn [Standard Deviation]

Một vấn đề nữa cần quan tâm là mỗi lần lấy mẫu ta có 1 số trung bình [mean] và từ đó ta tí;nh được phương sai của mẫu. Phương sai của mẫu cho biết sự biến thiên của các cá thể trong quần thể. Giả sử ta lấy mẫu k lần, và ta có k số trung bình. Để mô tả sự biến thiên của các số trung bình mẫu lấy từ tổng thể người ta sử dụng đại lượng sai số chuẩn [Standard Error –SE] được tí;nh bằng cách lấy độ lệch chuẩn chia cho căn bậc hai của kí;ch thước mẫu:

Tóm lại: Độ lệch chuẩn mô tả biến thiên của các cá thể trong quần thể còn sai số chuẩn mô tả sự biến thiên của các số trung bình mẫu lấy từ tổng thể. Một cách dễ hiểu nếu ta lấy mẫu k lần từ tổng thể và ta có k số trung bình mẫu thì độ lệch chuẩn của k số trung bình mẫu gọi là sai số chuẩn [chú ý k thường rất lớn, hàng triệu hay hàng tỷ lần vì trong thực tế ta không biết được số trung bình của tổng thể].


Tương quan [Correlation]

Trong lý thuyết xác suất và thống kê, hệ số tương quan [Coefficient Correlation] cho biết độ mạnh của mối quan hệ tuyến tí;nh giữa hai biến số ngẫu nhiên. Từ tương quan [Correlation] được thành lập từ Co- [có nghĩa "together"] và Relation [quan hệ].

Hệ số tương quan giữa 2 biến có thể dương [positive] hoặc âm [negative]. Hệ số tương quan dương cho biết rằng giá trị 2 biến tăng cùng nhau còn hệ số tương quan âm thì nếu một biến tăng thì biến kia giảm.

Xem thêm: Xí Muội Là Gì - Xí Muội Được Làm Từ Quả Gì

Độ mạnh và hướng tương quan của 2 biến được mô tả như sau:


Hệ số tương quan có thể nhận giá trị từ -1 đến 1:

Ví; dụ: Có dữ liệu [bivariate] về nhiệt độ [Temperature] và doanh thu bán kem [Ice Cream Sales] như sau:


Đồ thị Scatter Plot của dữ liệu trên :

Từ Scatter Plot, ta có thể thấy rằng nhiệt độ càng cao thì doanh thu bán kem càng cao. Trong dữ liệu trên, hệ số tương quan là 0.9575[sẽ trình bày cách tí;nh ở phần sau] và mối quan hệ giữa nhiệt độ và doanh số bán kem là rất mạnh. Hệ số tương quan dương nói rằng nhiệt độ tăng thì doanh số bán kem cũng tăng.

Tương quan không có tí;nh nhân quả [Causation].

Cách tí;nh hệ số tương quan [Coefficient Correlation]

Trong ví; dụ trên, hệ số tương quan là 0.9575. Bây giờ sẽ trình bày cách tí;nh hệ số này theo công thức Pearson [Pearson's Correlation].

Gọi x và y là hai biến [Trong ví; dụ trên thìx là Temperature và y là Ice Cream Sales]

· Bước 1: Tí;nh trung bình của x và y

· Bước 2: Tí;nh độ lệch của mỗi giá trị của x với trung bình của x [lấy các giá trị của x trừ đi trung bình của x] và gọilà"a", làm tương tự như vậy với y và gọi là "b"

· Bước 3: Tí;nh: a × b, a2b2 cho mỗi giá trị

· Bước 4: Tí;nh tổng a × b, tổng a2 vả tổng b2

· Bước 5: Chia tổng của a × b cho căn bậc 2 của

Công thức chung để tí;nh hệ số tương quan giữa 2 đại lượng ngẫu nhiên x và y là

Dưới đây minh họa việc tí;nh hệ số tương quan của ví; dụ trên


Các tham số đo lường xu hướng tập trung và biến thiên của dữ liệu có thể được tí;nh dễ dàng bởi các hàm trong MS Excel. Sau đây giới thiệu một số hàm liên quan và ví; dụ minh họacách tí;nh các tham số trên trong MS Excel

Đo lường xu hướng trung [Central tendency]

AVERAGE: Tí;nh trung bình số học [mean]

MEDIAN: Tí;nh trung vị

MODE: Tí;nh số mode

Đo lường độ biến thiên [Variation]

MAX – MIN : Tí;nh Range

PERCENTILE [array, k] : Tìm phân vị thứ k của các giá trị trong một mảng dữ liệu

QUARTILE [array, 3] – QUARTILE [array, 1] : Tí;nh Inter Quartile Range [IQR]

VAR : Tí;nh phương sai của mẫu

VARPA: Tí;nh phương sai tổng thể [Chú ý, công thức tí;nh phương sai tổng thể giống như phương sai mẫu nhưng thay vì chia cho n-1 như phương sai mẫu thì chia cho n. trong đó n là kí;ch thước mẫu]

STDEV : Tí;nh độ lệch chuẩn của mẫu

STDEVPA Tí;nh độ lệch chuẩn của tổng thể

Một số hàm liên quan khác


SUM : Tí;nh tổng các số

SQRT: Căn bậc hai

CEILING : Ceiling function. CEILING[k] cho số nguyên nhỏ nhất lơn hơn k.Ví; dụ : CEILING[3.5,1]=4

FLOOR : Floor function. FLOOR[k] cho số nguyên lớn nhất nhỏ hơn k. Ví; dụ: FLOOR[3.5]=3]


Chuyên mục: Hỏi Đáp

Video liên quan

Bài Viết Liên Quan

Toplist mới

Bài mới nhất

Chủ Đề