Internetové obchody, online kina a další služby v posledních letech aktivně vyvíjejí algoritmy pro sledování zájmů uživatelů, na jejichž základě je sestaven individuální seznam zajímavých produktů.

Systémy doporučení jsou oboustranně výhodným nástrojem pro vlastníky platforem i jejich uživatele. První z nich zvyšují prodeje tím, že potenciálním kupujícím zobrazují relevantní obsah, zatímco druhé tráví méně času hledáním správných věcí.

Když se mluví o systémech doporučování, často se hovoří o „kolaborativním filtrování“. V tomto článku si jednoduše vysvětlíme, co to je, jak to funguje a uvedeme několik příkladů použití.

Kolaborativní filtrování jednoduchými slovy

Kolaborativní filtrování je technologie pro předpovídání uživatelských preferencí s ohledem na zájmy ostatních návštěvníků internetového zdroje. Na základě shromážděných informací systém doporučí ty produkty, o které se již publikum s podobnými zájmy zajímalo, ale konkrétní osoba ještě ne.

Kolaborativní filtrování jako základ algoritmů využívá mnoho velkých služeb (například Amazon, eBay, AliExpress, Netflix a další) a sociálních sítí (VKontakte, Facebook a další). Chytré algoritmy pomáhají službám nabízet uživatelům zajímavé produkty (služby) a zkracují čas potřebný k nalezení správných věcí.

Jak funguje kolaborativní filtrování

Za složitým a děsivým názvem se skrývá jednoduché schéma práce. Systém rozděluje uživatele do skupin na základě podobných zájmů a následně jim doporučuje, co si ostatní lidé z tohoto segmentu prohlédli (nakoupili, objednali).

Podívejme se na příklad, jak funguje kolaborativní filtrování na základě služby IVI (online kino). Uživatel se zaregistruje, zhlédne film „Law Abiding Citizen“ a následně dostane doporučení na základě toho, co viděli ostatní lidé, kteří se o tento film zajímali.

Na základě tohoto principu platforma provádí různé výběry a doporučení: podle žánru, herců, filmových tvůrců atd.

Platí zde princip akumulace znalostí: čím více stránek si prohlédnete, tím přesnější budou doporučení. Mimochodem, některé služby nabízejí uživatelům zanechat hodnocení za účelem zlepšení kvality systému.

Například Yandex.Movies přímo informuje návštěvníky, že aby se jim zobrazila kvalitní doporučení, musí ohodnotit 10 filmů.

Typy kolaborativního filtrování

Kolaborativní filtrování se dělí na 3 typy: založené na sousedství, založené na modelu a hybridní. Promluvme si o nich podrobněji dále.

ČTĚTE VÍCE
Jak určit pohlaví čolka ostnatého?

Na základě sousedství

Tento typ se objevil jako první a dnes se používá ve většině doporučovacích systémů. Pro návštěvníka je vybrána podskupina uživatelů s podobnými zájmy a na základě kombinací vah a hodnocení je vybrán obsah, u kterého je pravděpodobnější, že osobu zaujme.

Fungování systému založeného na tomto typu se provádí v několika fázích:

  1. Každému návštěvníkovi je přiřazena váha na základě podobnosti jeho hodnocení a hodnocení aktivního uživatele.
  2. Je vybráno několik uživatelů, kteří jsou co nejblíže hmotnosti návštěvníka. Vybraná skupina se nazývá „sousedé“.
  3. Relevantní obsah je vybrán s ohledem na váhu a hodnocení sousedů.

Na základě modelu

Tento typ vytváří doporučení na základě parametrů statistických modelů pro hodnocení uživatelů vytvořených pomocí Bayesových sítí, shlukování, latentního sémantického modelu atd.

Modely jsou vyvíjeny pomocí dolování dat a algoritmů strojového učení k nalezení vzorů založených na trénovacích datech. Počet parametrů v modelu nemá žádná přísná omezení a lze jej snížit v závislosti na typu pomocí metody hlavní součásti.

Tento přístup si získává na oblibě díky vyšší přesnosti prognóz, protože systém doporučení zohledňuje skryté faktory, které vysvětlují sledovaná hodnocení.

Tento přístup má i další výhody (které by mohly pokračovat ještě dlouho). Například zvládá řídké matice lépe než předchozí typ, což zase pomáhá se škálovatelností velkých datových sad.

Existují i ​​nevýhody, ale mezi hlavními vyniká vysoká cena implementace modelu. Důležitým úkolem ve fázi vytváření je najít kompromis mezi přesností a velikostí modelu, protože v důsledku redukce může dojít ke ztrátě užitečných informací.

Hybridní

Hybridní typ je běžnější než ostatní, zejména pokud je systém doporučení vyvinut pro komerční web: internetový obchod, tržiště atd. Kombinuje první dva typy a pomáhá překonat omezení původního původního přístupu (na základě sousedství) a zlepšit přesnost doporučení.

Řeší i další potíže, jako je problém řídkosti dat a ztráty informací. Díky tomu je jeho implementace a implementace složitá a nákladná, ale firmám to také přináší spoustu výhod.

Výzvy kolaborativního filtrování

Přes všechny výhody, které kolaborativní filtrování přináší, existuje také řada výzev, kterým vývojáři čelí.

Sparita dat

Velké komerční systémy doporučení jsou obvykle založeny na velkém množství dat (obsah, produkty, služby atd.) a většina uživatelů je nehodnotí. Díky tomu je matice mezi položkami a uživateli velká a řídká, takže je někdy obtížné vytvořit relevantní doporučení.

ČTĚTE VÍCE
Mohu použít vodu z vodovodu pro akvárium?

Tento problém je typický pro nové systémy. V tomto ohledu se někdy zvyšuje problém „studeného startu“, o kterém budeme diskutovat později.

Škálovatelnost

Jak postupně přibývá uživatelů, může dříve nebo později nastat problém se škálovatelností. Například máme 100 tisíc O(M) uživatelů a 15 tisíc O(N) produktů. Potom je obtížné vypočítat algoritmus kolaborativního filtrování do té míry, že se získá výraz O(M x N).

Tento problém je umocněn skutečností, že některé doporučující systémy musí reagovat na požadavky uživatelů ve zlomku sekundy, aniž by byla relevantní historie nákupů nebo hodnocení uživatele. To vše vyžaduje ještě větší škálovatelnost.

Problém se studeným startem

Nový obsah a uživatelé pro systém doporučení jsou výzvou. Programátoři řeší část problému pomocí přístupu, který je založen na analýze obsahu, protože se zaměřuje spíše na atributy než na hodnocení. Proto je možné zahrnout nové položky do doporučení pro uživatele.

Jiná věc je, když potřebujete dát doporučení novému uživateli, o kterém ještě nic není známo. Tento problém je obtížnější a nákladnější na řešení.

Synonyma

Synonymie je tendence k tomu, aby podobné nebo dokonce stejné předměty měly různá jména. Většina doporučujících systémů není schopna najít skrytá spojení, takže tyto položky považují za odlišné. Například „filmy o detektivech“ a „filmy o detektivech“ jsou stejného žánru, ale systém je bude chápat jako různé kategorie.

Podvod

Problém s doporučujícími systémy je v tom, že hodnocení může dát každý uživatel. Co když se jedná např. o výrobce konkrétního zboží? Své produkty umí kladně hodnotit, ale na konkurenčních zanechává špatné recenze. Doporučovací systémy proto začaly mít silný dopad na tržby a zisky, když je začaly masově využívat komerční projekty.

Odrůda

Zpočátku bylo kolaborativní filtrování koncipováno jako způsob propagace málo známých produktů. To znamená, že uživatelům měl být na základě jejich zájmů ukazován obsah od malých výrobců, kteří v jiném prostředí kvůli nedostatku zdrojů nemohli gigantům konkurovat.

Některé algoritmy, například ty, které jsou založeny na prodeji a hodnocení, však vytvářejí obtížné podmínky pro propagaci málo známých produktů. Nemohou získat požadovaný počet hodnocení jako oblíbené produkty.

ČTĚTE VÍCE
Co jedí varani doma?

Bílé vrány

„Bílé vrány“ jsou uživatelé, jejichž názory se neshodují s většinou ostatních. Možná mají specifický vkus a názory. To ztěžuje vydávání relevantních doporučení.

Vývojáři zatím řešení tohoto problému nehledají, protože takovým lidem je těžké poskytnout dobrá doporučení nejen na internetu, ale i v reálném životě.

Kde se používá kolaborativní filtrování?

Podívejme se na pár příkladů, kde je použita metoda kolaborativního filtrování. Nejviditelnější možností jsou sociální sítě. Facebook и VKontakte. Je to základ „chytrých“ zpravodajských kanálů. Pravděpodobně jste si všimli, že příspěvky se dlouho nezobrazovaly v chronologickém pořadí. Služby určují vaše zájmy a nejprve zobrazují příspěvky, které vás s největší pravděpodobností zaujmou.

Na podobném principu dnes funguje další velká sociální síť – Instagram. Pokud jsme dříve viděli publikace založené na novinkách, dnes systém automaticky vybírá nejprve to, co nás zajímá. A čím více se nám líbí a zanecháváme komentáře, tím přesnější doporučení fungují.

Další jasný příklad – Youtube. Vytváří doporučení videí na základě toho, co jsme viděli dříve. Kromě toho vám stránka nabízí, abyste se seznámili s materiály jiných uživatelů, jejichž zájmy se co nejvíce shodují s našimi.

Dříve jsme v článku zmínili online kino IVI. Vybírá filmy na základě zájmů uživatele po analýze předchozích zhlédnutí a hodnocení. Nabízí také výběr filmů, které jsou vytvořeny na základě podobných zájmů jako ostatní uživatelé. Stojí za zmínku, že na tomto principu dnes fungují všechna velká online kina.

O příkladech se můžeme bavit velmi dlouho. Pozor na velké internetové obchody, hudební služby atp. Uvidíte, že po nějaké době používání vám doporučí obsah, který odpovídá vašim zájmům.

Kolaborativní filtrování bohužel není ideálním řešením pro vytvoření systému doporučení pro uživatele. Ale tato metoda má vlastnosti, které jiné algoritmy postrádají.

Dříve byly systémy založeny na zájmech samotného uživatele. V důsledku toho se ocitl uzavřený v kruhu vlastních preferencí a obtížně získával informace o novém obsahu, který na první pohled neodpovídal jeho zájmům. Nyní se uživatelé mohou seznámit s celou řadou produktů na webu a vybrat si pro sebe něco nového, užitečného a zajímavého.

ČTĚTE VÍCE
Který chelát železa je pro rostliny nejlepší?

Ještě více o systémech doporučování se můžete dozvědět v našem každoročním kurzu „Profese: Analytik
(od 0 do PRO)”. Připoj se k nám!