Създаване на 2 програми
Автор |
|
insecteaterПет, 05.06.09, 22:47 |
Пет, 05.06.09, 22:33 2 - втората гласна буква отзад напред 0.o Демек ако ударението е на една и съща позиция на гласната (отзад напред) се получава рима. пример: атомен - огромен - коронен и трите думи завършват на "ен", но при последните две ударението е на едно и също място - на втората гласна (отзад напред), докато при първата дума ударението е на различно място - при третата гласна отзад напред. Съответно рима между атомен и огромен (и двете завърват на "мен) няма., докато между огромен и коронен някак си по-има рима, въпреки че общата им част е по-малка от колкото при първата и втората дума. Та точно затова е тая магария с ударенията, да се махнат очеизвадно несъвместимите за рими думи, на които ударението не пасва. Между другото ударенията се нацъкват доста бързо се оказа. За няколко дена целият приложен тука речник нацъка. Речника обаче е бедничък и ще трябва по-нататък да се допълва. Дали ще е ръчно .. или с помощта на нещо, което да извлича различните думи от посочени големи текстове и произведения... ще видим Болшинството от думите ударението им е на втората гласна отзад напред, но когато се намесят и останалите родове и числа, положението се попроменя. | | anonymousПет, 05.06.09, 22:57 |
Значи правят речник и на никого не казват Нещо от рода на sounds_like със съответните charset + Collation + connection pipe и всичко това в sql? | | insecteaterПет, 05.06.09, 23:04 |
мда, само че по-строго, да ти се намира soundex за български език? редакция: забравих да напиша - това дето съм публикувал има две колонки - в лявата се копират (част от) думите от речника който фрозен е дал и се натиска старт. После с мишката почва да се цъка на буквата която е ударението и думата автоматично отива в дясната колона и се появява следващата. | | anonymousПет, 05.06.09, 23:15 |
regexpПо-строгото няма ли да стане с подбор на колацията? btw някой ще качи ли dat файла, за да не се налага инстал на програмата. Edit: че е за linux 10x редактиран от anonymous на 05.06.09 23:18 | | phrozencrewСъб, 06.06.09, 00:00 | RE: Създаване на 2 програми
” regexpПо-строгото няма ли да стане с подбор на колацията? btw някой ще качи ли dat файла, за да не се налага инстал на програмата. Edit: че е за linux 10x „
Dat файла с преводите на английски ми остана на работата (фуцк!), ако питаш за dat-файла от БГ Офис помощника. В момента работим с Sorted_BG_words_dict.txtРечника в новата версия на БГ офиса е променен и вече не е съвсем обикновен текст файл. Има го тук: http://garr.dl.sourceforge.net/sourceforge/bgoffice/bg-en_dual.tar.bz2Сложено е едно NUL пред думичките и новите редове са малко на карамба, а и думите вече не са с големи букви Ганчо, можем да допълним речника с думи от последната версия. Само как ще ги извлечем. Иначе с kdif3 или друго може да се сравнят речниците след сортиране. коко, утрепа ме с тоя RegEx в MySQL! Верно ахнах! | | insecteaterСъб, 06.06.09, 00:13 |
УФ, ми аз почнах по речника който даде. Ако искаш дай да го довършим него. Допълването може да става и после. Относно допълването - след като свършим речника който си дал (което няма да отнеме много време) се заформят две разклонения - едното е да се напише самата клиентска програма, която да прави сравнението на римите - самият продукт към който се стремим. Другата част е обогатяването на речника. Зарекъл съм се да направя инструмент, който да извлича уникалните думи от даден текст. Пускаме например романа "Под игото" (който не е от Христо Ботев) и гледай само какъв речник ще се заформи. И след това различните думи които нямаме включени в нашият речник в експллоатация се нацъкват и се добавят и те. Избери си какво ще ти е забавно да правиш, аз тези работи ще ги правя на php. Ако си намерил по-хубав и по-пълен речник, публикувай го сега, че да не цъкаме напразно на този с малкото думи :) макар че като съм готов с инструментите за извличане на уникални думи,това няма да е проблем. | | anonymousСъб, 06.06.09, 00:15 |
Благодаря ви за интереса към темата. Ето думите с Е E_E.txtЗа жалост открих лек бъг в Java Scripta на Ганчо... :( Понеже 1вата част открива думите които са без Ъ, а втората с Ъ. Та тези които са правени на първата част, тя не зачита Ъ като гласна и тогава цифрата не я брои. Например едър1 , тук програмата е посочила, че ударението е на първата гласна, реално това се пада "Ъ", но дефакто, аз цъкнах на "Е", но понеже прогамата не брои ъ я е отбелязала на първата гласна. Не знам дали ви го обясних правилно, дано сте ме разбрали. --Редакция: Текстовият файл вече е коригиран и е наред. Той човека си е написал, че не работи ама аз шматка... Първо пробвах една дума с "Е" на скрипта с "Ъ", но той не я отчете и аз помислих, че е само за думи започващи с "Ъ", а то просто не я е изкарало, защото трябва да са повече от една и така... Както и да е вече е коригирано. редактиран от anonymous на 06.06.09 09:38 редактиран от anonymous на 06.06.09 09:39 редактиран от anonymous на 06.06.09 09:40 редактиран от anonymous на 06.06.09 09:40 | | insecteaterСъб, 06.06.09, 00:19 |
ааа, първият е грешен, чеки ей сега го махам, трябваше да го махна, веднага след това сложих втория, ама не се сетих че някой може да ползва старият махам гоооо Почвам буквите от Ж до К ... готови са Ready_ZH_K.txt | | phrozencrewСъб, 06.06.09, 17:24 |
Хора, убийте ме, но не можех да разбера защо слагате ударенията така. Ето пак пример: жанров2 жаргон1 2 в първата дума към коя буква сочи? Ами 1 във втората? Не мога и не мога да зацепя :( ЕДИТ: Разбрах идеята, чак като пробвах скрипта! УФФ, ама съм тъпо парче! Аз ще разъкам П. Което означава, че за сега остават: ий лмно рстуфхцчшщъьюя | | insecteaterСъб, 06.06.09, 20:18 |
Междувременно ето едно скриптче, което по най балъшки начин извлича от даден текстов файл думите използвани в него и ги слага в речник, по-нататък може да влезе в употреба за обогатяване на речника, ама му е рано още. uniquewords.php--------- Вземам буквите от Л до О включително ("и" и "й" са готови вече по-горе) --------- жанров2 - тука числото 2 сочи към буквата "а" която е ВТОРАТА гласна буква отзад напред жаргон1 - тука числото 1 сочи към буквата "о", която е ПЪРВАТА гласна буква отзад напред най общо казано - думи с едно и също число са "ударени" така че да се получи рима, докато при думи с различно число, няма рима. Кой ще прави гъзарската част - тая дето ще ползва речника? За мен не проблем да цъкам думички и да правя все по голям и по-богат речник. | | Коментар |