mboost-dp1
Indexing/crawling spørgsmål: Hvordan fandt Google min undermappe?
- Forside
- ⟨
- Forum
- ⟨
- Tagwall
Jeg har de seneste måneder været ved at udvikle en ny hjemmeside for en kunde. I den forbindelse har jeg jævnligt uploadet ændringer til en undermappe på kundens webserver, således at hjemmeside kunne findes i www.kundesdomæne.dk/new
Nogle søgninger på Google har dog afsløret at Google har fundet og indekseret work-in-progress siden selvom der ikke linkes til den fra forsiden. Jeg kan se at webserveren p.t. laver directory listing som default på mapper uden en index/default side i, men da kunden hele tiden har haft en forside, så burde Google ikke kunne lave lave en listing og dermed finde undermappen.
Jeg har korrosponderet adressen til undersiden nogle gange i diverse e-mails sendt gennem Gmail.
Nogen der har et bud på hvordan Google har kunnet opdage undermappens eksistens og indeksere indholdet?
Nogle søgninger på Google har dog afsløret at Google har fundet og indekseret work-in-progress siden selvom der ikke linkes til den fra forsiden. Jeg kan se at webserveren p.t. laver directory listing som default på mapper uden en index/default side i, men da kunden hele tiden har haft en forside, så burde Google ikke kunne lave lave en listing og dermed finde undermappen.
Jeg har korrosponderet adressen til undersiden nogle gange i diverse e-mails sendt gennem Gmail.
Nogen der har et bud på hvordan Google har kunnet opdage undermappens eksistens og indeksere indholdet?
MadiZone (1) skrev:Jeg har korrosponderet adressen til undersiden nogle gange i diverse e-mails sendt gennem Gmail.
Og jeg forstår så ikke at du ikke gjorde dig den ulejlighed lige at smide en gang BasicAuth på /new.
fidomuh (4) skrev:#3
Maaske fordi han finder det skraemmende at google indexerer ud fra personlige emails.
At tro andet er da godt naivt.
Der er mange måder siden kan være blevet kendt på.
- Det kan være at kunden selv har indtastet den på http://www.google.com/addurl
- Det kan være at siden har links til andre sites som har en side med links til alle referrers.
- Det kan være at du ved et uheld er kommet til at efterlade et link til siderne et andet sted på sitet.
Der er flere måder at finde ud af hvordan google fandt siden:
- Du kan prøve http://www.google.com/search?q=info:http%3A%2F%2Fw...
- Du kan også prøve med http://www.google.com/webmasters/, her skal du registrerer dig for at få adgang fordi disse oplysninger kun stilles til rådighed hvis du kan bevise at du er webmaster for det site du vil have oplysninger om.
- Det kan være at kunden selv har indtastet den på http://www.google.com/addurl
- Det kan være at siden har links til andre sites som har en side med links til alle referrers.
- Det kan være at du ved et uheld er kommet til at efterlade et link til siderne et andet sted på sitet.
Der er flere måder at finde ud af hvordan google fandt siden:
- Du kan prøve http://www.google.com/search?q=info:http%3A%2F%2Fw...
- Du kan også prøve med http://www.google.com/webmasters/, her skal du registrerer dig for at få adgang fordi disse oplysninger kun stilles til rådighed hvis du kan bevise at du er webmaster for det site du vil have oplysninger om.
#8 - gode forslag. Jeg tror jeg fundet "lækket".
Virksomheden skiftede også design i 2002 hvor jeg oprettede en tråd på Eksperten for at bede dem vurdere den nye side. Dengang lå den (dengang) nye side også i /new.
:-)
Jeg troede sgu lige at Google scannede vores mail.
Mht. til auth - så plejer det jo aldrig været nødvendigt da (den hemmelige) sti er en adgangskode i sig selv. Desuden er det ikke katastrofalt at siden er blevet indekseret, da det er okay at folk via Google kan finde ud af at jeg ikke kan sætte kommaer og skal have korrektur på. :o)
Tak for hjælpen folks
Virksomheden skiftede også design i 2002 hvor jeg oprettede en tråd på Eksperten for at bede dem vurdere den nye side. Dengang lå den (dengang) nye side også i /new.
:-)
Jeg troede sgu lige at Google scannede vores mail.
Mht. til auth - så plejer det jo aldrig været nødvendigt da (den hemmelige) sti er en adgangskode i sig selv. Desuden er det ikke katastrofalt at siden er blevet indekseret, da det er okay at folk via Google kan finde ud af at jeg ikke kan sætte kommaer og skal have korrektur på. :o)
Tak for hjælpen folks
hvad med en robots.txt fil, og en deny på undermappen,, det gjorde vi i det reklame bureau jeg arbejdede for når vi havde sider under opbygning.
Udmærket løsning hvis man synes kodeordsbeskyttelse er overkill, men stadig gerne vil undgå at bots indekserer siderne.slemmebirk (12) skrev:hvad med en robots.txt fil
Der går rygter om spambots, der bruger robots.txt til at finde interessante sider at kigge på. Jeg har dog aldrig set beviser på at de skulle eksistere. Det er dog nemt at beskytte sig imod den slags blot for tilfældets skyld.
Hvis du f.eks. skriver:
User-agent: *
Disallow: /n
betyder det at alle navne, der begynder med "n" vil være off-limits. Det vil sige at crawlere der overholder reglerne vil holde sig fra /new, og dem der evt. måtte prøve at misbruge robots.txt kan alligevel ikke bruge den til at finde frem til /new.
Man skal bare lige sikre sig, at man ikke har noget andet startende med n, som man gerne vil have indekseret.
Opret dig som bruger i dag
Det er gratis, og du binder dig ikke til noget.
Når du er oprettet som bruger, får du adgang til en lang række af sidens andre muligheder, såsom at udforme siden efter eget ønske og deltage i diskussionerne.