download.bg
 Вход Списание  Новини  Програми  Статии  Форум  Чат   Абонамент  Топ95   Архив 

Създаване на 2 програми

<1 2 3 4 5 6 7 8 >

Автор
Съобщение
insecteater
Пет, 05.06.09, 22:47
Пет, 05.06.09, 22:33
2 - втората гласна буква отзад напред 0.o
Демек ако ударението е на една и съща позиция на гласната (отзад напред) се получава рима.
пример:
атомен - огромен - коронен

и трите думи завършват на "ен", но при последните две ударението е на едно и също място - на втората гласна (отзад напред), докато при първата дума ударението е на различно място - при третата гласна отзад напред. Съответно рима между атомен и огромен (и двете завърват на "мен) няма., докато между огромен и коронен някак си по-има рима, въпреки че общата им част е по-малка от колкото при първата и втората дума.

Та точно затова е тая магария с ударенията, да се махнат очеизвадно несъвместимите за рими думи, на които ударението не пасва. Между другото ударенията се нацъкват доста бързо се оказа. За няколко дена целият приложен тука речник нацъка. Речника обаче е бедничък и ще трябва по-нататък да се допълва. Дали ще е ръчно .. или с помощта на нещо, което да извлича различните думи от посочени големи текстове и произведения... ще видим

Болшинството от думите ударението им е на втората гласна отзад напред, но когато се намесят и останалите родове и числа, положението се попроменя.

редактиран от insecteater на 05.06.09 22:50
anonymous
Пет, 05.06.09, 22:57
Значи правят речник и на никого не казват

Нещо от рода на sounds_like със съответните charset + Collation + connection pipe и всичко това в sql?

insecteater
Пет, 05.06.09, 23:04
мда, само че по-строго, да ти се намира soundex за български език?

редакция: забравих да напиша - това дето съм публикувал има две колонки - в лявата се копират (част от) думите от речника който фрозен е дал и се натиска старт. После с мишката почва да се цъка на буквата която е ударението и думата автоматично отива в дясната колона и се появява следващата.

редактиран от insecteater на 05.06.09 23:27
anonymous
Пет, 05.06.09, 23:15
regexp

По-строгото няма ли да стане с подбор на колацията?
btw някой ще качи ли dat файла, за да не се налага инстал на програмата.
Edit: че е за linux
10x

редактиран от anonymous на 05.06.09 23:18
phrozencrew
Съб, 06.06.09, 00:00

RE: Създаване на 2 програми

regexp

По-строгото няма ли да стане с подбор на колацията?
btw някой ще качи ли dat файла, за да не се налага инстал на програмата.
Edit: че е за linux
10x

Dat файла с преводите на английски ми остана на работата (фуцк!), ако питаш за dat-файла от БГ Офис помощника.
В момента работим с Sorted_BG_words_dict.txt
Речника в новата версия на БГ офиса е променен и вече не е съвсем обикновен текст файл. Има го тук:
http://garr.dl.sourceforge.net/sourceforge/bgoffice/bg-en_dual.tar.bz2
Сложено е едно NUL пред думичките и новите редове са малко на карамба, а и думите вече не са с големи букви
Ганчо, можем да допълним речника с думи от последната версия. Само как ще ги извлечем. Иначе с kdif3 или друго може да се сравнят речниците след сортиране.

коко, утрепа ме с тоя RegEx в MySQL! Верно ахнах!

insecteater
Съб, 06.06.09, 00:13
УФ, ми аз почнах по речника който даде. Ако искаш дай да го довършим него. Допълването може да става и после.

Относно допълването - след като свършим речника който си дал (което няма да отнеме много време) се заформят две разклонения - едното е да се напише самата клиентска програма, която да прави сравнението на римите - самият продукт към който се стремим.

Другата част е обогатяването на речника. Зарекъл съм се да направя инструмент, който да извлича уникалните думи от даден текст. Пускаме например романа "Под игото" (който не е от Христо Ботев) и гледай само какъв речник ще се заформи. И след това различните думи които нямаме включени в нашият речник в експллоатация се нацъкват и се добавят и те.

Избери си какво ще ти е забавно да правиш, аз тези работи ще ги правя на php.
Ако си намерил по-хубав и по-пълен речник, публикувай го сега, че да не цъкаме напразно на този с малкото думи :) макар че като съм готов с инструментите за извличане на уникални думи,това няма да е проблем.

anonymous
Съб, 06.06.09, 00:15
Благодаря ви за интереса към темата. Ето думите с Е E_E.txt
За жалост открих лек бъг в Java Scripta на Ганчо... :(
Понеже 1вата част открива думите които са без Ъ, а втората с Ъ.
Та тези които са правени на първата част, тя не зачита Ъ като гласна и тогава цифрата не я брои. Например
едър1 , тук програмата е посочила, че ударението е на първата гласна, реално това се пада "Ъ", но дефакто, аз цъкнах на "Е", но понеже прогамата не брои ъ я е отбелязала на първата гласна. Не знам дали ви го обясних правилно, дано сте ме разбрали.
--Редакция:
Текстовият файл вече е коригиран и е наред. Той човека си е написал, че не работи ама аз шматка... Първо пробвах една дума с "Е" на скрипта с "Ъ", но той не я отчете и аз помислих, че е само за думи започващи с "Ъ", а то просто не я е изкарало, защото трябва да са повече от една и така... Както и да е вече е коригирано.
редактиран от anonymous на 06.06.09 09:38
редактиран от anonymous на 06.06.09 09:39
редактиран от anonymous на 06.06.09 09:40
редактиран от anonymous на 06.06.09 09:40
insecteater
Съб, 06.06.09, 00:19
ааа, първият е грешен, чеки ей сега го махам, трябваше да го махна, веднага след това сложих втория, ама не се сетих че някой може да ползва старият махам гоооо

Почвам буквите от Ж до К

... готови са Ready_ZH_K.txt

редактиран от insecteater на 06.06.09 08:02
редактиран от insecteater на 06.06.09 08:02
редактиран от insecteater на 06.06.09 10:24
phrozencrew
Съб, 06.06.09, 17:24
Хора, убийте ме, но не можех да разбера защо слагате ударенията така. Ето пак пример:
жанров2
жаргон1

2 в първата дума към коя буква сочи? Ами 1 във втората? Не мога и не мога да зацепя :(

ЕДИТ: Разбрах идеята, чак като пробвах скрипта! УФФ, ама съм тъпо парче!

Аз ще разъкам П.
Което означава, че за сега остават: ий лмно рстуфхцчшщъьюя

редактиран от phrozencrew на 06.06.09 17:36
редактиран от phrozencrew на 06.06.09 18:19
insecteater
Съб, 06.06.09, 20:18
Междувременно ето едно скриптче, което по най балъшки начин извлича от даден текстов файл думите използвани в него и ги слага в речник, по-нататък може да влезе в употреба за обогатяване на речника, ама му е рано още.
uniquewords.php
---------
Вземам буквите от Л до О включително ("и" и "й" са готови вече по-горе)
---------
жанров2 - тука числото 2 сочи към буквата "а" която е ВТОРАТА гласна буква отзад напред
жаргон1 - тука числото 1 сочи към буквата "о", която е ПЪРВАТА гласна буква отзад напред

най общо казано - думи с едно и също число са "ударени" така че да се получи рима, докато при думи с различно число, няма рима.

Кой ще прави гъзарската част - тая дето ще ползва речника? За мен не проблем да цъкам думички и да правя все по голям и по-богат речник.

<1 2 3 4 5 6 7 8 >

Коментар

за нас | за разработчици | за реклама | станете автори | in english  © 1998-2024   Experta Ltd.