Hvorfor internettet har brug for scanningsneutralitet

I dag ét firmaGoogle— kontrollerer næsten al adgang til information på internettet i verden. Deres monopol på fundraising for milliarder af mennesker, deres adgang til viden, produkter og deres forskning på internettet er i hænderne på én virksomhed. De fleste er enige om, at denne mangel på konkurrence i søgning er dårlig for enkeltpersoner, samfund og demokratier.

Hvad mange ikke ved er, at en af ​​de største barrierer for konkurrence i søgning er manglen på crawl-neutralitet. Den eneste måde at opbygge en uafhængig søgemaskine og en chance for at konkurrere retfærdigt med den store teknologi på er først at gennemgå nettet effektivt og effektivt. Internettet er dog et aktivt fjendtligt miljø for opkomne crawlere, da de fleste hjemmesider kun tillader Googles crawler og diskriminerer andre søgemaskinecrawlere som f.eks. Neeva.

Dette kritiske, men ofte oversete problem har en enorm indflydelse på nye søgemaskiner som Neeva, der ikke giver brugerne reelle alternativer, hvilket yderligere reducerer søgekonkurrencen. Som med netneutralitet har vi i dag brug for en tilgang til scanningsneutralitet. Uden en ændring i politik og adfærd vil søgekonkurrenter fortsætte med at kæmpe med den ene hånd bundet bag ryggen på os.

Lad os starte helt fra begyndelsen. Opbygning af et omfattende webindeks er en forudsætning for konkurrence i søgning. Med andre ord det første skridt til at bygge Neeva søgemaskine “downloader internettet” gennem en Neeva søgerobot kaldet Neevabot.

Det er her, problemerne starter. For det meste tillader websteder kun gratis adgang til Google og Bing-crawlere, mens de diskriminerer andre crawlere som Neeva. Disse websteder tillader enten alt andet i deres robots.txt-filer eller siger (oftere) intet i robots.txt, men returnerer fejl i stedet for indhold til andre crawlere. Hensigten kan være at filtrere ubudne gæster fra, men effekten er at smide barnet ud af baljen med vandet. Og du vil ikke være i stand til at vise søgeresultater, hvis du ikke ved, hvordan du crawler internettet.

Dette tvinger startups til at bruge uforholdsmæssig meget tid og ressourcer på at lede efter løsninger. For eksempel implementerer Neeva en politik om “crawling af et websted, så længe robots.txt tillader GoogleBot og ikke tillader Neevabot”. Selv efter en sådan løsning forbliver de dele af internettet, der indeholder nyttige søgeresultater, utilgængelige for mange søgemaskiner.

Som et andet eksempel tillader mange websteder ofte ikke-Google-crawler gennem robots.txt og blokerer det på andre måder, enten ved at smide forskellige fejl (503, 429 osv.) eller ved at begrænse hastigheden. For at crawle disse websteder skal der bruges løsninger såsom “tilsløring ved scanning ved hjælp af en bank af proxy-IP-adresser, der ændres med jævne mellemrum”. Legitime søgemaskiner som Neeva er uvillige til at implementere løsninger som denne.

Disse kontrolpunkter er ofte designet til ondsindede bots, men ender med at kvæle legitim søgekonkurrence. Hos Neeva har vi brugt mange kræfter på at skabe en velfungerende crawler, der respekterer hastighedsgrænser og kravler ved den minimumshastighed, der kræves for at skabe en fantastisk søgemaskine. I mellemtiden har Google carte blanche. Den gennemgår 50B websider om dagen. Den besøger hver side på internettet en gang hver tredje dag og beskatter netværksbåndbredden på alle websteder. Dette er internetmonopolskatten.

Til de heldige crawlere blandt os kan en gruppe velvillige, webmastere og velmenende udgivere hjælpe med at hvidliste din bot. Takket være dem scanner Neeva hundredvis af millioner sider om dagen og vil snart nå milliarder af sider om dagen. Det kræver dog stadig at identificere de rigtige personer inden for disse virksomheder, som du kan tale med, sende e-mails og kolde opkald og håbe på goodwill fra webmastere med webmaster-aliasser, som normalt ignoreres. Midlertidig rettelse, der ikke skalerer.

At få tilladelse til at scanne bør ikke afhænge af, hvem du kender. Der skal være lige vilkår for alle, der konkurrerer og følger reglerne. Google har monopol på søgning. Hjemmesider og webmastere står over for et umuligt valg. Tillad enten Google at crawle dem, eller bliv ikke fremtrædende i Googles resultater. Som et resultat tvinger Googles søgemonopol internettet som helhed til at forstærke monopolet ved at give Googlebot prioriteret adgang.

Internettet bør ikke have lov til at skelne mellem søgemaskinecrawlere baseret på, hvem de er. Neeva Scanneren er i stand til at crawle internettet med samme hastighed og dybde som Google. Der er ingen tekniske begrænsninger, kun konkurrencebegrænsende markedskræfter, der gør det vanskeligt at konkurrere retfærdigt. Og hvis det er for meget ekstra arbejde for webmastere at skelne mellem dårlige bots, der gør deres websteder langsommere, og legitime søgemaskiner, så bør dem med frie tøjler som GoogleBot være forpligtet til at dele deres data med de ansvarlige.

Regulatorer og politikere bør gribe ind, hvis de interesserer sig for søgekonkurrence. Markedet har brug for en snigende neutralitet svarende til netneutralitet.

Vivek Raghunathan er medstifter af Neeva, en privat, reklamefri søgemaskine. Asim Shankar er CTO for Neeva.

Add Comment