Terdapat banyak kontroversi mengenai ujian satu hujung vs dua hujung.

Artikel seperti ini membidas kelemahan ujian satu hujung, dengan mengatakan bahawa “pengguna yang tidak canggih menyukai mereka.” Sebaliknya, beberapa artikel dan perbincangan mengambil pendekatan yang lebih seimbang dan mengatakan ada masa dan tempat untuk kedua-duanya.

Malah, ramai orang tidak menyedari bahawa terdapat dua cara untuk menentukan sama ada keputusan percubaan adalah sah secara statistik. Masih terdapat banyak kekeliruan dan salah faham tentang ujian satu hujung dan dua hujung.

Kekecohan datang dari kebimbangan yang wajar: adakah lif saya khayalan? Seperti yang dinyatakan dalam artikel SumAll ini, kadangkala ujian A/A akan menghasilkan beberapa keputusan yang aneh, sekali gus membuatkan anda mempersoalkan keberkesanan alat anda dan rancangan ujian a/b anda. Oleh itu, apabila kita bercakap tentang ujian 1 ekor vs 2 ekor, kita benar-benar bercakap tentang sama ada kita boleh mempercayai keputusan ujian a/b kita atau tidak dan mengambil tindakan berdasarkannya.

Apa perbezaannya? Pentingkah? Bilakah saya harus menggunakan satu ekor? Dua ekor?

Satu ekor vs dua ekor – apakah perbezaannya?

Jika anda baru belajar tentang ujian, Khan Academy menawarkan ilustrasi yang jelas tentang perbezaan antara ujian satu ekor dan dua ekor:

Pada dasarnya, ujian satu hujung membenarkan kemungkinan kesan hanya dalam satu arah di mana dengan ujian dua hujung, anda menguji kemungkinan kesan dalam dua arah – positif dan negatif.

pvalue1-1.png

Ujian dua hujung (Sumber Imej)

pvalue2-1.png

Ujian Satu hujung (Sumber Imej)

Chris Stucchio melakukan kerja yang hebat menerangkan perbezaan antara kedua-dua ujian dalam konteks:

“Dalam ujian yang kerap, anda mempunyai hipotesis nol. Hipotesis nol ialah apa yang anda percaya sebagai bukti nyata yang tidak wujud sebaliknya. Sekarang andaikan anda telah menjalankan ujian dan menerima p-value. Nilai-p mewakili kebarangkalian untuk melihat keputusan sekurang-kurangnya “melampau” itu sekiranya hipotesis nol adalah benar. Semakin rendah nilai p, semakin kurang munasabah bahawa hipotesis nol adalah benar. Sekarang andaikan anda sedang menguji A/B suatu kawalan dan variasi dan anda ingin mengukur perbezaan dalam kadar penukaran antara kedua-dua varian. ujian mengambil sebagai hipotesis nol kepercayaan bahawa kedua-dua variasi mempunyai kadar penukaran yang sama.

Ujian satu ekor mengambil sebagai hipotesis nol kepercayaan bahawa variasi tidak lebih baik daripada kawalan, tetapi boleh menjadi lebih teruk.” ( sumber petikan)

Secara ringkasnya, ujian dua hujung boleh menunjukkan bukti bahawa kawalan dan variasi adalah berbeza , tetapi ujian satu hujung digunakan untuk menunjukkan bukti jika variasi lebih baik daripada kawalan.

Adakah penting kaedah mana yang anda gunakan?

Okey, jadi sekarang setelah kita meneliti apakah sebenarnya ujian itu, kita boleh bertanya soalan penting: adakah ia juga penting yang anda gunakan? Ternyata, itu soalan yang rumit. Di situlah banyak cemuhan timbul.

Menurut Kyle Rush, Pengarah Kejuruteraan dan Pengoptimuman Frontend di Hillary for America, ia:

Kyle Rush:

kyle-rush

“Faedah menggunakan ujian satu hujung ialah ia memerlukan lebih sedikit subjek untuk mencapai kepentingan. Ujian dua hujung membahagikan tahap keertian anda dan menggunakannya dalam kedua-dua arah, justeru setiap arah hanya separuh kuat daripada ujian satu hujung (yang meletakkan semua kepentingan dalam satu arah) dan dengan itu memerlukan lebih banyak subjek untuk mencapai kepentingan.

Kebaikan dan Keburukan Setiap Kaedah

Maxymiser membentangkan beberapa kebaikan dan keburukan menggunakan mana-mana ujian (mereka juga membuat sedikit maklumat grafik yang berguna jika anda menghadapi masalah memahami perbezaannya):

Ujian Satu Ekor Kebaikan Keburukan

  • Memerlukan kurang trafik
  • Mendapat kepentingan lebih cepat (baca: mengapa kepentingan tidak sama kesahan)
  • Hanya mengambil kira satu senario
  • Boleh membawa kepada keputusan yang tidak tepat dan berat sebelah

Ujian Dua Ekor

  • Akaun untuk ketiga-tiga senario
  • Membawa kepada keputusan yang tepat dan boleh dipercayai
  • Memerlukan lebih banyak trafik
  • Mengambil masa lebih lama untuk mendapat kepentingan

Faktor lain dalam kesahihan

Menurut Andrew Anderson dari Malwarebytes, terdapat banyak faktor lain yang dimainkan semasa menguji:

Andrew Anderson:

andrew-anderson

“Anda juga mempunyai isu Ujian-T berbanding Ujian-Z atau pendekatan kerap Gaussian yang lain berbanding pendekatan Bayesian. Ia sebenarnya tidak semudah satu ekor berbanding dua ekor. Semua ini juga mengandaikan bahawa anda sedang menguji dalam persekitaran yang keyakinan sedikit sebanyak berguna dan yang mengesahkan andaian asas di sebalik model. Contohnya, dalam dua jawatan terakhir saya, varians sangat tinggi sehingga saya tidak melihat keyakinan kerana ia sama sekali tidak menggambarkan situasi dunia sebenar.”

Oleh itu, terdapat faktor lain apabila ia datang untuk menguji kesahihan statistik. Namun, terdapat pendapat yang kukuh mengenai ujian satu hujung dan dua hujung.

Kes untuk ujian dua hujung

Ujian dua hujung mengurangkan ralat jenis I (positif palsu) dan ralat bias kognitif. Tambahan pula, seperti yang dikatakan oleh Kyle Rush, “melainkan anda mempunyai pemahaman yang hebat tentang statistik, anda harus menggunakan ujian dua hujung.”

Inilah yang dikatakan oleh Andrew Anderson:

Andrew Anderson:
“Jika diberi pilihan, anda lebih baik menggunakan dua ekor berbanding satu ekor kerana pada asasnya ujian satu hujung membolehkan lebih banyak ralat jenis I dan juga ralat bias kognitif. Satu ekor menggoda kerana ia membawa kepada “kesimpulan” yang lebih cepat tetapi itu hanya membesarkan semua masalah dengan menggunakan keyakinan dan tidak melakukan apa-apa untuk menambah nilai kepada organisasi anda. Kedua-duanya adalah berdasarkan andaian model yang serupa, perkara seperti tiada varians (hanya kadar ralat populasi), persampelan tidak berat sebelah dan taburan Gaussian, jadi kedua-duanya jarang sekali mencerminkan situasi dunia sebenar, tetapi bar kesukaran yang lebih tinggi untuk mencapai “kepentingan” dalam ujian dua hujung, serta ukuran kedua-dua arah lebih mencerminkan hasil dunia sebenar kerana kebanyakan masa apa yang kita fikirkan akan positif sebenarnya negatif (lihat 10% kadar kejayaan purata industri), serta mengurangkan (hampir tidak) risiko bertindak terlalu cepat.”

Neal Cole, Pakar Penukaran di syarikat permainan dalam talian terkemuka, bersetuju:

Neal Cole:

neal-cole

“Secara peribadi saya fikir satu ujian ekor tidak sesuai untuk kebanyakan ujian A/B dan meningkatkan risiko positif palsu. Apabila kami melakukan ujian A/B, kami tidak dapat memastikan arah perbezaan dalam metrik utama. Kira-kira 50% daripada ujian tidak memberikan peningkatan dalam penukaran dan oleh itu kami bergurau jika kami menggunakan ujian satu ekor sebagai pendekatan lalai kami.”

Bilakah saya boleh menggunakan ujian satu hujung?

Menurut sesetengah orang, terdapat masa dan tempat untuk ujian a/b. Ia selalunya kontekstual dan bergantung pada cara anda berniat untuk bertindak ke atas data tersebut. Seperti yang dikatakan Luke Stokebrand, “Ujian satu hujung tidak selalunya buruk, hanya penting untuk memahami kelemahannya. Malah, terdapat banyak masa apabila masuk akal untuk menggunakan ujian satu hujung untuk mengesahkan data anda.”

Andy Hunt dari UpliftROI, walaupun mengakui kesilapan ujian satu hujung, mengambil pendekatan yang realistik:

“Ujian dua hala adalah lebih baik tetapi bukan kebiasaan bagi kebanyakan pemasar atau VWO/Optimizely.

Daripada menumpukan pada sama ada untuk menggunakan ujian dua atau satu sisi, lebih baik anda membiarkan sahaja ujian berjalan lebih lama untuk memastikan keputusan adalah sah DAN menjalankan ujian “A/A” di mana anda memastikan kawalan dan variasi menunjukkan prestasi yang sama.”

Begitu juga, Jeff Sauro dari MeasuringU mengulangi bahawa walaupun anda biasanya menggunakan nilai p 2 sisi, “anda hanya perlu menggunakan nilai p 1 sisi apabila anda mempunyai alasan yang sangat kuat untuk mengesyaki bahawa satu versi benar-benar lebih baik daripada lain.”

Kyle Rush menyuarakan ini:

Kyle Rush:

“Jika anda menguji variasi baharu di tapak web anda dan hanya ingin mengetahui sama ada variasi itu lebih baik, maka anda akan menggunakan ujian satu hujung ke arah itu. Jika anda tidak merancang untuk menggunakan variasi jika ia tidak menang, maka ini adalah pendekatan yang baik. Walau bagaimanapun, ini bertukar menjadi pendekatan yang buruk jika anda menggunakan variasi apabila ia bukan pemenang yang signifikan secara statistik kerana ujian satu arah tidak mengukur hipotesis ke arah lain, jadi anda tidak tahu sama ada variasi itu lebih teruk. Ujian dua hujung menggunakan ujian hipotesis dalam kedua-dua arah supaya isu ini dapat dikurangkan.”

Alat mana yang menggunakan kaedah yang mana?

Apabila anda bertanya soalan perisian ujian a/b yang menggunakan kaedah yang mana, anda memasuki dunia jawapan yang keruh dan kekaburan. Maksudnya, tidak ramai daripada mereka menyenaraikannya secara khusus. Jadi inilah yang saya dapat daripada penyelidikan dan daripada bertanya kepada pakar ujian (betulkan saya jika saya salah atau perlu menambah sesuatu):

Alat yang menggunakan ujian satu hujung

  • Optimum (dua ujian satu ekor)
  • Eksperimen Kandungan Google (menggunakan Bandit, tetapi satu ekor jika anda melumpuhkan ciri itu)
  • VWO

Alat yang menggunakan ujian dua hujung:

  • Sasaran Adobe
  • Maxymiser
  • Tukar
  • Wang

Sudah tentu, alatan tertentu mempunyai rangka kerja tersuai juga (seperti Penyamun Berbilang Bersenjata Google). Kyle Rush menerangkan Enjin Statistik Optimizely:

Kyle Rush:

“Dari segi alat di pasaran, Enjin Statistik Optimizely menjadikan statistik dan soalan seperti ini sangat mudah untuk anda, lebih daripada mana-mana platform lain di luar sana. Faedah besar kepada Stats Engine ialah dengan ujian-t tradisional satu dan dua ekor anda perlu mengira saiz sampel berdasarkan pembolehubah sewenang-wenang yang dipanggil kesan pengesanan minimum (MDE). Dengan Stats Engine, anda tidak perlu mengira saiz sampel, iaitu memilih MDE sewenang-wenangnya. Ini mempunyai kesan yang besar kerana anda sering akan memandang rendah MDE anda apabila mengira saiz sampel (kerana anda hanya memilih nombor daripada udara nipis) yang mempunyai kesan memerlukan saiz sampel yang boleh menjadi lebih besar secara eksponen daripada yang anda perlukan untuk mencapai kepentingan.

Saya sangat percaya bahawa kebimbangan tentang soalan seperti ini adalah perkara yang sudah berlalu dengan Enjin Statistik Optimizely.”

Kesimpulan

Isu penggunaan ujian 1 ekor vs 2 ekor adalah penting, walaupun keputusan itu tidak boleh dibuat dengan statistik sahaja. Seperti yang dikatakan oleh Chris Stucchio, “ia perlu diputuskan dari dalam konteks prosedur keputusan.”

Dia terus mengatakan bahawa, “Apabila menjalankan ujian A/B, matlamat hampir selalu untuk meningkatkan penukaran dan bukannya sekadar menjawab rasa ingin tahu terbiar. Untuk memutuskan sama ada satu ekor atau dua ekor sesuai untuk anda, anda perlu memahami keseluruhan prosedur keputusan anda dan bukannya statistik semata-mata.”

Jadi, jika anda ingin mengetahui lebih lanjut tentang ujian satu hujung dan dua hujung, terdapat banyak sumber. Berikut adalah beberapa yang mudah difahami:

Jika tidak, saya akan menutup dengan sesuatu yang Peep katakan tentang subjek itu: “Isu satu lawan dua adalah kecil (tidak mengapa menggunakan ujian satu ekor dalam banyak kes) berbanding dengan saiz sampel ujian dan tempoh ujian. Menamatkan ujian terlalu cepat adalah dosa ujian #1 yang ada.”