mboost-dp1

Indexing/crawling spørgsmål: Hvordan fandt Google min undermappe?


Gå til bund
Gravatar #1 - nielsbuus
22. dec. 2010 13:24
Jeg har de seneste måneder været ved at udvikle en ny hjemmeside for en kunde. I den forbindelse har jeg jævnligt uploadet ændringer til en undermappe på kundens webserver, således at hjemmeside kunne findes i www.kundesdomæne.dk/new

Nogle søgninger på Google har dog afsløret at Google har fundet og indekseret work-in-progress siden selvom der ikke linkes til den fra forsiden. Jeg kan se at webserveren p.t. laver directory listing som default på mapper uden en index/default side i, men da kunden hele tiden har haft en forside, så burde Google ikke kunne lave lave en listing og dermed finde undermappen.

Jeg har korrosponderet adressen til undersiden nogle gange i diverse e-mails sendt gennem Gmail.

Nogen der har et bud på hvordan Google har kunnet opdage undermappens eksistens og indeksere indholdet?
Gravatar #2 - Faergemeister
22. dec. 2010 13:29
MadiZone (1) skrev:
Jeg har korrosponderet adressen til undersiden nogle gange i diverse e-mails sendt gennem Gmail.
Gravatar #3 - Faergemeister
22. dec. 2010 13:30
Og jeg forstår så ikke at du ikke gjorde dig den ulejlighed lige at smide en gang BasicAuth på /new.
Gravatar #4 - fidomuh
22. dec. 2010 13:31
#3

Maaske fordi han finder det skraemmende at google indexerer ud fra personlige emails.
Gravatar #5 - myplacedk
22. dec. 2010 13:35
Er der links fra de "hemmelige" sider til det "offentlige" internet?

Så kan man lynhurtigt dukke op i diverse statistikker og hvad ved jeg.

Måske er der en proxy imellem et eller andet sted, som kan have noget statistik eller noget?
Gravatar #6 - Daniel-Dane
22. dec. 2010 14:23
Hvad er dine .htaccess-indstillinger for mappen da?
Gravatar #7 - Faergemeister
22. dec. 2010 23:31
fidomuh (4) skrev:
#3

Maaske fordi han finder det skraemmende at google indexerer ud fra personlige emails.


At tro andet er da godt naivt.
Gravatar #8 - kasperd
23. dec. 2010 00:05
Der er mange måder siden kan være blevet kendt på.
- Det kan være at kunden selv har indtastet den på http://www.google.com/addurl
- Det kan være at siden har links til andre sites som har en side med links til alle referrers.
- Det kan være at du ved et uheld er kommet til at efterlade et link til siderne et andet sted på sitet.

Der er flere måder at finde ud af hvordan google fandt siden:
- Du kan prøve http://www.google.com/search?q=info:http%3A%2F%2Fw...
- Du kan også prøve med http://www.google.com/webmasters/, her skal du registrerer dig for at få adgang fordi disse oplysninger kun stilles til rådighed hvis du kan bevise at du er webmaster for det site du vil have oplysninger om.
Gravatar #9 - nielsbuus
23. dec. 2010 18:24
#8 - gode forslag. Jeg tror jeg fundet "lækket".

Virksomheden skiftede også design i 2002 hvor jeg oprettede en tråd på Eksperten for at bede dem vurdere den nye side. Dengang lå den (dengang) nye side også i /new.

:-)

Jeg troede sgu lige at Google scannede vores mail.

Mht. til auth - så plejer det jo aldrig været nødvendigt da (den hemmelige) sti er en adgangskode i sig selv. Desuden er det ikke katastrofalt at siden er blevet indekseret, da det er okay at folk via Google kan finde ud af at jeg ikke kan sætte kommaer og skal have korrektur på. :o)

Tak for hjælpen folks
Gravatar #10 - myplacedk
24. dec. 2010 09:27
MadiZone (9) skrev:
Mht. til auth - så plejer det jo aldrig været nødvendigt da (den hemmelige) sti er en adgangskode i sig selv.

Og nu ved vi hvorfor der er så mange som siger "neeeej" til det: Hemmelige URL'er har det med at lække på en eller anden obskur måde.
Gravatar #11 - freesoft
24. dec. 2010 09:49
Der kan være noget seo duplicate content problem i det, hvis man går op i det :-)
Derfor man lige skal have kode på, den burde Google ikke knække ;)
Gravatar #12 - slemmebirk
25. dec. 2010 13:42
hvad med en robots.txt fil, og en deny på undermappen,, det gjorde vi i det reklame bureau jeg arbejdede for når vi havde sider under opbygning.
Gravatar #13 - Zeales
25. dec. 2010 14:17
Jeg har lige et bonus spørgsmål:

Er det ikke lidt dumt at sidde på den "primære" sides server, hvis du kommer til at lave en fuck up eller lignende i et svagt øjeblik, ved f.eks. databasen?
Gravatar #14 - Daniel-Dane
25. dec. 2010 15:38
Hvorfor er der heller ikke kode på?
Gravatar #15 - freesoft
25. dec. 2010 18:44
#12
Så fortæller du jo lige frem at folk skal komme ind og se dine sider under opbygning ;-)
Gravatar #16 - pixel
25. dec. 2010 18:55
#15

Man skal bare lægge siderne i andre undermapper, som så ligger inde i den undermappe, der er deny på med robots.txt.
Gravatar #17 - kasperd
25. dec. 2010 23:30
slemmebirk (12) skrev:
hvad med en robots.txt fil
Udmærket løsning hvis man synes kodeordsbeskyttelse er overkill, men stadig gerne vil undgå at bots indekserer siderne.

Der går rygter om spambots, der bruger robots.txt til at finde interessante sider at kigge på. Jeg har dog aldrig set beviser på at de skulle eksistere. Det er dog nemt at beskytte sig imod den slags blot for tilfældets skyld.

Hvis du f.eks. skriver:
User-agent: *
Disallow: /n

betyder det at alle navne, der begynder med "n" vil være off-limits. Det vil sige at crawlere der overholder reglerne vil holde sig fra /new, og dem der evt. måtte prøve at misbruge robots.txt kan alligevel ikke bruge den til at finde frem til /new.

Man skal bare lige sikre sig, at man ikke har noget andet startende med n, som man gerne vil have indekseret.
Gå til top

Opret dig som bruger i dag

Det er gratis, og du binder dig ikke til noget.

Når du er oprettet som bruger, får du adgang til en lang række af sidens andre muligheder, såsom at udforme siden efter eget ønske og deltage i diskussionerne.

Opret Bruger Login