Създаване на 2 програми

Автор

Съобщение

insecteater
Пет, 05.06.09, 22:47

Пет, 05.06.09, 22:33
2 - втората гласна буква отзад напред 0.o
Демек ако ударението е на една и съща позиция на гласната (отзад напред) се получава рима.
пример:
атомен - огромен - коронен
и трите думи завършват на "ен", но при последните две ударението е на едно и също място - на втората гласна (отзад напред), докато при първата дума ударението е на различно място - при третата гласна отзад напред. Съответно рима между атомен и огромен (и двете завърват на "мен) няма., докато между огромен и коронен някак си по-има рима, въпреки че общата им част е по-малка от колкото при първата и втората дума.
Та точно затова е тая магария с ударенията, да се махнат очеизвадно несъвместимите за рими думи, на които ударението не пасва. Между другото ударенията се нацъкват доста бързо се оказа. За няколко дена целият приложен тука речник нацъка. Речника обаче е бедничък и ще трябва по-нататък да се допълва. Дали ще е ръчно .. или с помощта на нещо, което да извлича различните думи от посочени големи текстове и произведения... ще видим
Болшинството от думите ударението им е на втората гласна отзад напред, но когато се намесят и останалите родове и числа, положението се попроменя.
редактиран от insecteater на 05.06.09 22:50
Отговор За печат
anonymous
Пет, 05.06.09, 22:57

Значи правят речник и на никого не казват
Нещо от рода на sounds_like със съответните charset + Collation + connection pipe и всичко това в sql?
Отговор За печат
insecteater
Пет, 05.06.09, 23:04

мда, само че по-строго, да ти се намира soundex за български език?
редакция: забравих да напиша - това дето съм публикувал има две колонки - в лявата се копират (част от) думите от речника който фрозен е дал и се натиска старт. После с мишката почва да се цъка на буквата която е ударението и думата автоматично отива в дясната колона и се появява следващата.
редактиран от insecteater на 05.06.09 23:27
Отговор За печат
anonymous
Пет, 05.06.09, 23:15

regexp
По-строгото няма ли да стане с подбор на колацията?
btw някой ще качи ли dat файла, за да не се налага инстал на програмата.
Edit: че е за linux
10x
редактиран от anonymous на 05.06.09 23:18
Отговор За печат
phrozencrew
Съб, 06.06.09, 00:00
RE: Създаване на 2 програми

Цитат на anonymous от Петък, 05.06.2009 23:15
” regexp
По-строгото няма ли да стане с подбор на колацията?
btw някой ще качи ли dat файла, за да не се налага инстал на програмата.
Edit: че е за linux
10x „
Dat файла с преводите на английски ми остана на работата (фуцк!), ако питаш за dat-файла от БГ Офис помощника.
В момента работим с Sorted_BG_words_dict.txt
Речника в новата версия на БГ офиса е променен и вече не е съвсем обикновен текст файл. Има го тук:
http://garr.dl.sourceforge.net/sourceforge/bgoffice/bg-en_dual.tar.bz2
Сложено е едно NUL пред думичките и новите редове са малко на карамба, а и думите вече не са с големи букви
Ганчо, можем да допълним речника с думи от последната версия. Само как ще ги извлечем. Иначе с kdif3 или друго може да се сравнят речниците след сортиране.
коко, утрепа ме с тоя RegEx в MySQL! Верно ахнах!
Отговор За печат
insecteater
Съб, 06.06.09, 00:13

УФ, ми аз почнах по речника който даде. Ако искаш дай да го довършим него. Допълването може да става и после.
Относно допълването - след като свършим речника който си дал (което няма да отнеме много време) се заформят две разклонения - едното е да се напише самата клиентска програма, която да прави сравнението на римите - самият продукт към който се стремим.
Другата част е обогатяването на речника. Зарекъл съм се да направя инструмент, който да извлича уникалните думи от даден текст. Пускаме например романа "Под игото" (който не е от Христо Ботев) и гледай само какъв речник ще се заформи. И след това различните думи които нямаме включени в нашият речник в експллоатация се нацъкват и се добавят и те.
Избери си какво ще ти е забавно да правиш, аз тези работи ще ги правя на php.
Ако си намерил по-хубав и по-пълен речник, публикувай го сега, че да не цъкаме напразно на този с малкото думи :) макар че като съм готов с инструментите за извличане на уникални думи,това няма да е проблем.
Отговор За печат
anonymous
Съб, 06.06.09, 00:15

Благодаря ви за интереса към темата. Ето думите с Е E_E.txt
За жалост открих лек бъг в Java Scripta на Ганчо... :(
Понеже 1вата част открива думите които са без Ъ, а втората с Ъ.
Та тези които са правени на първата част, тя не зачита Ъ като гласна и тогава цифрата не я брои. Например
едър1 , тук програмата е посочила, че ударението е на първата гласна, реално това се пада "Ъ", но дефакто, аз цъкнах на "Е", но понеже прогамата не брои ъ я е отбелязала на първата гласна. Не знам дали ви го обясних правилно, дано сте ме разбрали.
--Редакция:
Текстовият файл вече е коригиран и е наред. Той човека си е написал, че не работи ама аз шматка... Първо пробвах една дума с "Е" на скрипта с "Ъ", но той не я отчете и аз помислих, че е само за думи започващи с "Ъ", а то просто не я е изкарало, защото трябва да са повече от една и така... Както и да е вече е коригирано.
редактиран от anonymous на 06.06.09 09:38
редактиран от anonymous на 06.06.09 09:39
редактиран от anonymous на 06.06.09 09:40
редактиран от anonymous на 06.06.09 09:40
Отговор За печат
insecteater
Съб, 06.06.09, 00:19

ааа, първият е грешен, чеки ей сега го махам, трябваше да го махна, веднага след това сложих втория, ама не се сетих че някой може да ползва старият махам гоооо
Почвам буквите от Ж до К
... готови са Ready_ZH_K.txt
редактиран от insecteater на 06.06.09 08:02
редактиран от insecteater на 06.06.09 08:02
редактиран от insecteater на 06.06.09 10:24
Отговор За печат
phrozencrew
Съб, 06.06.09, 17:24

Хора, убийте ме, но не можех да разбера защо слагате ударенията така. Ето пак пример:
жанров2
жаргон1
2 в първата дума към коя буква сочи? Ами 1 във втората? Не мога и не мога да зацепя :(
ЕДИТ: Разбрах идеята, чак като пробвах скрипта! УФФ, ама съм тъпо парче!
Аз ще разъкам П.
Което означава, че за сега остават: ий лмно рстуфхцчшщъьюя
редактиран от phrozencrew на 06.06.09 17:36
редактиран от phrozencrew на 06.06.09 18:19
Отговор За печат
insecteater
Съб, 06.06.09, 20:18

Междувременно ето едно скриптче, което по най балъшки начин извлича от даден текстов файл думите използвани в него и ги слага в речник, по-нататък може да влезе в употреба за обогатяване на речника, ама му е рано още.
uniquewords.php
---------
Вземам буквите от Л до О включително ("и" и "й" са готови вече по-горе)
---------
жанров2 - тука числото 2 сочи към буквата "а" която е ВТОРАТА гласна буква отзад напред
жаргон1 - тука числото 1 сочи към буквата "о", която е ПЪРВАТА гласна буква отзад напред
най общо казано - думи с едно и също число са "ударени" така че да се получи рима, докато при думи с различно число, няма рима.
Кой ще прави гъзарската част - тая дето ще ползва речника? За мен не проблем да цъкам думички и да правя все по голям и по-богат речник.
Отговор За печат

<1 2 3 4 5 6 7 8 >

Коментар

за нас | за разработчици | за реклама | станете автори | in english

Форум » Системни администратори и хакери » Създаване на 2 програми

Създаване на 2 програми

RE: Създаване на 2 програми