Изключителна статия! Толкова достъпно е поднесена информацията, че чак ми се прищя да си напиша собствен алгоритъм за търсене на дубликати.
Предполагах, че по някакъв подобен начин TinEye сравнява изображенията, но това означава и нещо друго. Означава, че всяка картинка трябва да се свали и да се обработи и информацията да се запишат в база данни, където присъстват адреса, хеша, размерите, а зщо не и EXIF-метаданните, ако има такива.
Обаче каква ще е тая база данни и файлови хранилища, и какви ще са тия паяци, дето се ровят за картинки в милярдите страници!? Предполагам, че картинките, които са проверени се изтриват като файл и остава само другото инфо.
Мерси за интересното инфо и насоки за размисъл и експерименти!