Google slaat terug tegen spam
Dit is een gastpost van Lior Levin.
De meest recente spam-jager van Google, Matt Cutts, heeft onlangs een uitgebreid blogbericht geplaatst over de staat van Google's strijd met spammers.
In de post zei Cutts dat hoewel spam in de index van Google minder dan de helft was van wat het vijf jaar geleden was, die spam in de index van Google de afgelopen maanden is toegenomen en voor bepaalde vragen meer merkbaar is geworden.
Volgens Cutts is deze verandering niet alleen te wijten aan het feit dat er meer spammers zijn dan ooit proberen om hun weg te vinden naar een hogere positie in de zoekmachine, maar omdat Google's recente Caffeine-update de zoekmachine meer inhoud dan ooit tevoren indexeert, inclusief spam.
Hij heeft echter wel het plan van Google uiteengezet om tegen deze opleving te vechten en te voorkomen dat dit een serieuzer probleem wordt. Hij heeft met name drie wijzigingen in Google uiteengezet waarvan hij hoopt dat deze de kwaliteit van de resultaten van Google zullen verbeteren en de zoekervaring voor iedereen zullen verbeteren.
De eerste wijziging, die Google onlangs heeft gelanceerd, is gericht op spammers zelf en is een " herontworpen classificeerder op documentniveau " die spam op een enkele pagina beter kan detecteren. Dit omvat zaken als herhaalde woorden in de tekst en bepaalde soorten reactiespam.
De tweede verbetering, die momenteel wordt geëvalueerd, is een algoritmische wijziging gericht op sites die inhoud van andere pagina's kopiëren, meestal zonder toestemming. Deze sites kopiëren vaak grote blokken inhoud met heel weinig origineel materiaal, maar ze staan soms erg goed, ook voor de sites die de inhoud oorspronkelijk hebben geproduceerd.
Het is echter de derde en laatste wijziging die de meeste discussie heeft opgeleverd. Volgens Cutts onderzoekt Google manieren om de rangorde van zogenaamde 'content farms' of sites die veel inhoud produceren, goedkoper te maken, meestal door contractarbeid die vaak van twijfelachtige kwaliteit is. Dit omvat bedrijven zoals Demand Media, die eHow, Livestrong en andere sites beheert.
Volgens Cutts heeft Google in 2010 twee wijzigingen aangebracht om de impact van deze inhoudboerderijen te verminderen, maar begrijpt dat mensen vragen om nog krachtigere actie te ondernemen. De sites zijn echter controversieel omdat, hoewel ze vaak een lagere kwaliteit hebben, ze niet als traditionele webspam worden beschouwd.
Gezien het feit dat Demand Media net een IPO heeft gehad dat het op $ 1, 5 miljard waardeerde, is het gemakkelijk om te zien hoeveel waarde het bedrijf heeft kunnen groeien door de inhoud ervan "landbouw". Wat nog te bezien is, is of Google zijn prevalentie in de resultaten kan verstikken, met name voor zoekopdrachten met lange staart die het target.
Wat wel duidelijk is, is dat Google, zelfs na een decennium in de branche, nog steeds worstelt met inhoudskwaliteitsproblemen in zijn index en moeite heeft om spammers, scrapers en content-boeren buiten schot te houden.
Hoewel het in het afgelopen decennium zeker vooruitgang heeft geboekt, is er nog steeds heel wat werk aan de winkel en Google wil dit doen.
Het enige wat we kunnen doen is achterover leunen, kijken wat er gebeurt en hopen dat legitieme sites van hoge kwaliteit niet onbedoeld in de mix terechtkomen.