HTTrack
HTTrack ist ja eine tolle Software, mit der man komplette Internetseiten herunterladen kann. Aber bei knapp 1 GB Daten hört der Spaß längst auf. Ein Benutzer verursachte mit HTTrack seit gestern Nachmittag einen Load avg von um die 1,2.

HTTrack ist ja eine tolle Software, mit der man komplette Internetseiten herunterladen kann. Aber bei knapp 1 GB Daten hört der Spaß längst auf. Ein Benutzer verursachte mit HTTrack seit gestern Nachmittag einen Load avg von um die 1,2.

Warum bin ich bei einer Google-Suche nach “has been tapped” (ohne Anführungszeichen(!)) innerhalb eines Tages auf Platz 1 von ungefähr 6.010.000 (bei einem lächerlichen PageRank von 1)? Weil ich der einzige bin, der das als <h3>-Überschrift drin hat? Meine Seite hat doch mit der Suchanfrage inhaltlich überhaupt nichts zu tun. Ich würde sagen, Google haut hier voll daneben und wertet Überschriften in Blogs zu hoch.
Ist es möglich, via Ajax einen Diffie-Hellman-Schlüsselaustausch (also asymmetrisch) vorzunehmen und danach dann alle Daten vom Server nur noch verschlüsselt zu übertragen, wobei dann der Server und das Ajax-Framework immer selbst ver- und entschlüsseln? Sodass man quasi eine sichere Verbindung über ungesichertes HTTP vornehmen kann? Wäre wohl zu testen.
Ich habe jetzt nicht gegoogelt, ob es das schon gibt.
RedirectMatch rockt in .htaccess-Files!
Jeder kennt das. Da hat man ein Lesezeichen zu einer Seite mit bestimmten Informationen seit ein paar Monaten gespeichert, möchte aus irgendeinem Grund wieder auf diese Seite und.. erhält einen 404, weil die Seite da nicht mehr auffindbar ist, da die Admins der Webseite beschlossen haben, die Pfade (URIs) zu ändern, neu zu strukturieren, zu verbessern, wie auch immer.
Ich habe auf jeden Fall heute ein tolles Dokument vom W3-Konsortium gefunden, welches die Überschrift “Cool URIs don’t change” trägt.
Hier mal die Dinge, die laut W3 nicht in eine URI hineingehören (fiktive Beispielpfade wie example/ sind kursiv und haben ein / am Ende..):
Noch dazu ist in dem Artikel Subject aufgeführt, was ich ein wenig anders sehe. Der Autor dieses Empfehlungsdokuments hat dazu eine etwas längere Erklärung geschrieben:
Topics and Classification by subject
I’ll go into this danger in more detail as it is one of the more difficult things to avoid. Typically, topics end up in URIs when you classify your documents according to a breakdown of the work you are doing. That breakdown will change. Names for areas will change. At W3C we wanted to change “MarkUp” to “Markup” and then to “HTML” to reflect the actual content of the section. Also, beware that this is often a flat name space. In 100 years are you sure you won’t want to reuse anything? We wanted to reuse “History” and “Stylesheets” for example in our short life.This is a tempting way of organizing a web site – and indeed a tempting way of organizing anything, including the whole web. It is a great medium term solution but has serious drawbacks in the long term
Part of the reasons for this lie in the philosophy of meaning. every term in the language it a potential clustering subject, and each person can have a different idea of what it means. Because the relationships between subjects are web-like rather than tree-like, even for people who agree on a web may pick a different tree representation. These are my (oft repeated) general comments on the dangers of hierarchical classification as a general solution.
Effectively, when you use a topic name in a URI you are binding yourself to some classification. You may in the future prefer a different one. Then, the URI will be liable to break.
Der Grund ist hier also, dass ein Titel, eine Überschrift oder eine Bezeichnung sich durchaus mit den Jahren ändern, oder man nach einiger Zeit vielleicht eine andere Bezeichnung vorzieht. Wie soll man eine Ressource (also ein Dokument) denn sonst Identifizieren (genau das macht einen URI ja aus), wenn nicht über die Bezeichnung?
Auf jeden Fall ist man auf der sicheren Seite, wenn man das Jahr oder das ganze Datum mit in den URI haut, denn so eine Bezeichnung wird sich selten innerhalb eines Tags in der Bedeutung ändern. (Genau das hab ich ja auch in meinen Perma-URLs im Blog: http://www.mitja-schmakeit.de/wordpress/jahr/monat/tag/bezeichnung/)
Falls hier also jemand in Zukunft ein Web-Projekt plant, denkt ruhig auch ein wenig an das Design der URIs der Seiten eures Projekts. Sofern ihr nicht auf Anfragen steht wie “Ich habe letztes Jahr diese Adresse bookmarked, wo finde ich die Seite jetzt?”. Wobei noch besser ist es, wenn man die Pfade gerade umgestellt hat, und Google noch auf die alten Verweist, was natürlich jedem Nutzer (und Google beim nächsten Besuch) einen hübschen 404 hinknallt. Wenn man schon die Pfade meint ändern zu müssen, dann doch bitte mit Weiterleitung. Und wenn ihrs ganz perfekt machen wollt, gebt bei Dokumenten, deren Leben vorüber ist, die also unter überhaupt keiner Adresse mehr gefunden werden können, aber mal existiert haben, ein 410 – Gone zurück.
Nun, da ich mich in letzter Zeit etwas mehr mit Domains beschäftige, hier noch etwas interessantes aus unserem .de Raum:
Volkswagen hat vor dem OLG Frankfurt durchgebracht, dass die Domain “vw.de” von der Denic an sie ausgegeben werden muss, obwohl die Vergaberichtlinien der denic ja besagen, dass eine .de Domain mindestens 3 Zeichen haben muss.
Wäre das Kriterium für alle Gültig, so wäre das auch kein Problem gewesen. Es existieren aber noch drei zweistellige .de Domains aus grauer Vorzeit (db.de, hq.de und ix.de). Prinzipiell ist die denic auch nur ein Unternehmen wie jedes andere, dass sich seine Vertragspartner und seine Angebote frei aussuchen darf, aber da sie bei Domains “marktherrschend” ist, hätte die “Privatautonomie” nach §20 GWB ihre Grenzen.
Deshalb hatte das OLG Frankfurt die denic jetzt verpflichtet, dem VW-Konzern die Registrierung der Domain “vw.de” zu gestatten, solange nicht eine Top Level Domain “.vw” eingeführt wird (was damit zusammenhängt, dass manche . DNS-Server (3,5%) noch die alte BIND-Version einsetzen, die bei solchen Domains Probleme hat, z.B. “fr.de”).
Gleichzeitig hat das Gericht der denic verboten, beim BGH in Revision zu gehen. Das Urteil ist nur deshalb noch nicht Rechtskräftig, weil denic eine Beschwerde beim BGH gegen die Nichtzulassung der Revision eingelegt hat. Also sollte das nur eine Frage der Zeit sein, bis das durchgeht. Und dann irgendwann auch die ganzen Klagen von anderen Unternehmen, die folgen werden, wenn das durchgegangen ist (natürlich nur zweistellige Zeichenketten die nicht als TLD existieren, z.B. “fr.de” wäre nicht möglich).
Für Privatpersonen sieht §20 GWB keinen Schutz vor solchen “Diskriminierungen” vor, weshalb es wohl nicht möglich sein wird, als Privatperson an so eine Domain zu kommen.
Gelesen bei heise. (Tolle Sache, dass heise das berichtet, wo denen doch die zweistellige Domain ix.de gehört
)
Ein sehr schönes Beispiel (während der Fußball-WM) für eine Aktion, die durch die Domainnamenlänge mit Sicherheit 50% oder mehr potentielle Besucher nicht bekommen hat:
http://scorefortheredcross.org
Warum tut man sowas? Wenn man sogar im Fernsehen mit dieser Werbung auftritt muss doch spätestens dem Werbegestalter auffallen dass der Name scheiße zu merken ist.
Sehr cool und leicht zu merken finde ich auch diese Domain:
http://www.chapellenotredamedelamedaillemiraculeuse.com/
Der Rootserver ist da.. nur leider scheint die Konfiguration da momentan noch nicht richtig zu stimmen.. wenn die erste Webseite drauf liegt poste ich sogar die ip hier
Ein sehr nettes Tool um herauszufinden, welche Hostnamen denn noch so alle auf einen Server zeigen (vorausgesetzt ein Webserver ist installiert, da Suchmaschinen dafür befragt werden). Wenn man nach diesem Server hier sucht fehlen zwar einige Domains, aber ansonsten ist das Tool doch schon sehr schön
Ich finde, dass hier deutlich zu viele Kategorien vorhanden sind. Ich leide zwar nicht unter dem Zwang, wie manch andere Blogs, alles in “Audio”, “Video” und “Texte” zu ordnen, aber die Liste in der linken Sidebar ist ziemlich lang. Da ich mich aber nur schwer von den Kategorien trennen kann, da sie alle ihren Grund hatten, weiß ich nicht, welche überflüssig sind
Mit anderen Worten: Sagt mir, welche Kategorien ihr überflüssig findet, bzw. welche eigentlich noch Fehlen (z.B. habe ich heute die Kategorie “Windows” nachgereicht, nachdem es ja schon eine Zeit lang “Linux” gibt.