数据集:

techiaith/banc-trawsgrifiadau-bangor

语言:

大小:

10K<n<100K

其他:

verbatim transcriptions speech recognition verbatim+transcriptions speech+recognition

许可:

cc0-1.0

数据集介绍文件清单

中文

See below for English

Banc Trawsgrifiadau Bangor

Dyma fanc o 25 awr 34 munud a 24 eiliad o segmentau o leferydd naturiol dros hanner cant o gyfranwyr ar ffurf ffeiliau mp3, ynghyd â thrawsgrifiadau 'verbatim' cyfatebol o’r lleferydd ar ffurf ffeil .tsv. Mae'r mwyafrif o'r lleferydd yn leferydd digymell, naturiol. Dosbarthwn y deunydd hwn o dan drwydded agored CC0.

Pwrpas

Pwrpas y trawsgrifiadau hyn yw gweithredu fel data hyfforddi ar gyfer modelau adnabod lleferydd, gan gynnwys ein modelau wav2vec . Ar gyfer y diben hwnnw, mae gofyn am drawsgrifiadau mwy verbatim o'r hyn a ddywedwyd na'r hyn a welir mewn trawsgrifiadau traddodiadol ac mewn isdeitlau, felly datblygwyd confensiwn arbennig ar gyfer y gwaith trawsgrifio ( gweler isod ). Gydag ein modelau wav2vec, caiff cydran ychwnaegol, sef 'model iaith' ei defnyddio ar ôl y model adnabod lleferydd i safoni mwy ar allbwn y model iaith i fod yn debycach i drawsgrifiadau traddodiadol ac isdeitlau.

Rydyn ni wedi darparu 3 ffeil .tsv, sef clips.tsv, train.tsv a test.tsv. Mae clips.tsv yn cynnwys ein trawsgrifiadau i gyd. Crëwyd train.tsv a test.tsv er mewn darparu setiau 'safonol' sy'n caniatáu i ddefnyddwyr allu gymharu modelau gan wahanol hyfforddwyr yn deg,hynny yw fe'u crëwyd at bwrpas meincnodi. Mae train.tsv yn cynnwys 80% o'n trawsgrifiadau, a test.tsv yn cynnwys y 20% sy'n weddill.

Dyma enghraifft o gynnwys y data:

audio_filename	audio_filesize	transcript	duration
f86a046fd0964e0386d8c1363907183d.mp3	898272	*post industrial* yym a gyda yy dwi'n ca'l deud	5092
f0c2310fdca34faaa83beca5fa7ed212.mp3	809720	sut i ymdopio felly, wedyn erbyn hyn mae o nôl yn y cartra	4590
3eec3feefe254c9790739c22dd63c089.mp3	1335392	Felly ma' hon hefyd yn ddogfen fydd yn trosglwyddo gyda'r plant bobol ifanc o un cam i'r llall ac hefyd erbyn hyn i'r coleg 'lly.	7570

Ceir pedair colofn yn y ffeiliau .tsv. Y cyntaf yw enw’r ffeil sain. Maint y ffeil sain yw’r ail. Y trawsgrifiad ei hun sydd yn y drydedd golofn. Hyd y clip sain sydd yn yr olaf. Dyma'r wybodaeth am y colofnau.

Maes	Esboniad
audio_filename	Enw'r ffeil sain o fewn y ffolder 'clips'
audio_filesize	Maint y ffeil
transcript	Trawsgrifiad
duration	Hyd amser y clip mewn milliseconds.

Y Broses o Greu’r Adnodd

Casglwyd y ffeiliau sain yn bennaf o bodlediadau Cymraeg gyda chaniatâd eu perchnogion yn ogystal â'r cyfranwyr unigol. Rydym yn ddiolchgar tu hwnt i’r bobl yna. Yn ogystal, crewyd rhywfaint o sgriptiau ar batrwm eitemau newyddion ac erthyglau a'u darllen gan ymchwilwyr yr Uned Technolegau Iaith er mwyn sicrhau bod cynnwys o'r math hwnnw yn y banc.

Gyrrwyd y ffeiliau sain trwy ein trawsgrifiwr awtomataidd mewnol i segmentu’r sain a chreu trawsgrifiadau amrwd. Defnyddiwyd pecyn trawsgrifio Elan 6.4 (ar gael o https://archive.mpi.nl/tla/elan ) gan drawsgrifwyr profiadol i wrando ar a chywiro’r trawsgrifiad amrwd.

Nodyn Ynghylch Anonymeiddio’r Cynnwys

Er tegwch i’r cyfranwyr, rydyn ni wedi anonymeiddio’r trawsgrifiadau. Penderfynwyd anonymeiddio nid yn unig enwau pobl unigol, ond hefyd unrhyw Wybodaeth Bersonol Adnabyddadwy (PII) gan gynnwys, ond nid yn gyfunedig i:

Rhif ffôn
Teitlau swyddi/galwedigaethau
Gweithleoedd
Enwau mannau cyhoeddus
Lleoliad daearyddol
Dyddiadau/amseroedd

Wrth drawsgrifio marciwyd pob segment oedd yn cynnwys PII gyda’r tag <PII>, yna wnaethom hidlo allan pob segment oedd yn cynnwys tag <PII> er mwyn sicrhau nad oedd unrhyw wybodaeth bersonol yn cael eu cyhoeddi fel rhan o’r adnodd hwn.

Rydym hefyd wedi newid trefn trawsgrifiadau i fod ar hap, felly nid ydynt wedi'u cyhoeddi yn y drefn y maent yn eu ymddangos yn y ffeiliau sain gwreiddiol.

Confensiynau Trawsgrifio

Datblygwyd y confensiynau trawsgrifio hyn er mwyn sicrhau fod y trawsgrifiadau nid yn unig yn verbatim ond hefyd yn gyson. Fe’u datblygwyd trwy gyfeirio at gonfensiynau a ddefnyddir gan yr Uned yn y gorffennol, confensiynau eraill megis y rhai a defnyddiwyd yng nghorpora CorCenCC, Siarad, CIG1 a CIG2, a hefyd trwy broses o ddatblygu parhaol wrth i’r tîm ymgymryd â’r dasg o drawsgrifio.

NODWCH - gan ein bod wedi datblygu’r egwyddorion trawsgrifio yn rhannol wrth ymgymryd â’r dasg o drawsgrifio nid yw’r trawsgrifiadau cynnar o reidrwydd yn dilyn yr egwyddorion cant y cant. Bwriadwn wirio’r trawsgrifiadau wedi i ni fireinio’r confensiynau.

Collnodau

Ni ddefnyddiwyd collnodau i marcio pob un llythyren a hepgorwyd gan siaradwyr. Er enghraifft, gwitho (sef ynganiad o gweithio ) sy’n gywir, nid gw’ith’o

Yn hytrach, defnyddiwyd collnodau i wahaniaethu rhwng gwahanol eiriau oedd yn cael eu sillafu'r union yr un fath fel arall. Er enghraifft rydym yn defnyddio collnod o flaen ’ma (sef yma ) i wahaniaethu rhyngddo â ma’ (sef mae ), gor’o’ i wahaniaethu rhwng gorfod a ffurf trydydd person unigol amser dibynnol presennol gori , a pwysa’ i wahaniaethu rhwng ffurf luosog pwys a nifer o ffurfiau berfol posib pwyso .

Fodd bynnag, ceir eithriad i’r rheol hon, a hynny pan fo sillafu gair heb gollnod yn newid sŵn y llythyren cyn neu ar ôl y collnod, ac felly Cymra’g sy’n gywir, nid Cymrag .

Tagiau

Wrth drawsgrifio, defnyddiwyd y tagiau hyn i recordio elfennau oedd y tu hwnt i leferydd yr unigolion:

<anadlu>
<aneglur>
<cerddoriaeth>
<chwerthin>
<chwythu allan>
<distawrwydd>
<ochneidio>
<PII>
<peswch>
<twtian>

Rhagwelwn y bydd y rhestr hon yn chwyddo wrth i ni drawsgrifio mwy o leferydd ac wrth i ni daro ar draws mwy o elfennau sydd y tu hwnt i leferydd unigolion.

Synau nad ydynt yn eiriol

Ymdrechwyd i drawsgrifio synau nad ydynt yn eiriol yn gyson. Er enghraifft, defnyddiwyd yy bob tro (yn hytrach nag yrr , yr neu err neu gymysgedd o’r rheiny) i gynrychioli neu adlewyrchu’r sŵn a wnaethpwyd pan oedd siaradwr yn ceisio meddwl neu oedi wrth siarad.

Defnyddiwyd y canlynol wrth drawsgrifio:

yy
yym
hmm
m-hm

Eto, rhagwelwn y bydd y rhestr hon yn chwyddo wrth i ni drawsgrifio mwy o leferydd ac wrth i ni daro ar draws mwy o synau nad ydynt yn eiriol.

Geiriau Saesneg

Rydym wedi amgylchynu bob gair neu ymadrodd Saesneg gyda sêr, er enghraifft:

Dwi’n deall *sort of* .

Cymreigio berfenwau

Pan fo siaradwyr yn defnyddio geiriau Saesneg fel berfenwau (trwy ychwanegu io ar ddiwedd y gair er enghraifft) rydym wedi ymdrechu i sillafu’r gair gan ddefnyddio confensiynau sillafu Cymreig yn hytrach nag ychwanegu io at sillafiad Saesneg o’r gair. Er enghraifft rydym wedi trawsgrifio heitio yn hytrach na hateio , a lyfio yn hytrach na loveio .

Cywiro cam-siarad

I sicrhau ein bod ni’n glynu at egwyddorion trawsgrifio verbatim penderfynwyd na ddylem gywiro cam-siarad neu gam-ynganu siaradwyr. Er enghraifft, yn y frawddeg ganlynol:

enfawr fel y diffyg o fwyd yym efallu cam-drin

mae'n amlwg mai’r gair efallai sydd dan sylw mewn gwirionedd, ond fe’i trawsgrifiwyd fel ei glywir.

Atalnodi

Defnyddiwyd atalnodau llawn, marciau cwestiwn ac ebychnodau wrth drawsgrifio’r lleferydd.

Rydym wedi amgylchynu bob gair neu ymadrodd sydd wedi ei dyfynnu gyda ” , er enghraifft:

Dywedodd hi ”Dwi’n mynd” ond aeth hi ddim.

Nodyn ynghylch ein defnydd o gomas

Gan mai confensiwn ysgrifenedig yw coma yn y bôn, ni ddefnyddiwyd comas cymaint wrth drawsgrifio. Byddai defnyddio coma lle y disgwylir i’w weld mewn testun ysgrifenedig ddim o reidrwydd wedi adlewyrchu lleferydd yr unigolyn. Dylid cadw hynny mewn cof wrth ddarllen y trawsgrifiadau.

Sillafu llythrennau

Sillafwyd llythrennau unigol yn hytrach na thrawsgrifio’r llythrennau unigol yn unig.

Hynny yw, hyn sy’n gywir:

Roedd ganddo ow si di

ac nid:

Roedd ganddo O C D

na chwaith:

Roedd ganddo OCD

Rhifau

Trawsgrifiwyd rhifau fel geiriau yn hytrach na digidau, hynny yw hyn sy’n gywir:

Y flwyddyn dwy fil ac ugain

ac nid:

Y flwyddyn 2020

Gorffen gair ar ei hanner

Marciwyd gair oedd wedi ei orffen ar ei hanner gyda - . Er enghraifft:

Ma’n rhaid i mi ca- cael diod.

Gorffen brawddeg ar ei hanner/ailddechrau brawddeg

Marciwyd brawddeg oedd wedi ei gorffen ar ei hanner gyda ... . Er enghraifft:

Ma’n rhaid i mi ca’l... Ma’ rhaid i mi brynu diod.

Siaradwr yn torri ar draws siaradwr arall

Ceir yn y data llawer o enghreifftiau o siaradwr yn torri ar draws y prif leferydd gan ddefnyddio synau nad ydynt yn eiriol, geiriau neu ymadroddion (megis m-hm , ie , ydi , yn union ac ati). Pan oedd y ddau siaradwr i'w clywed yn glir ag ar wahân, rhoddwyd ... ar ddiwedd rhan gyntaf y lleferydd toredig, a ... arall ar ddechrau ail ran y lleferydd toredig, fel yn yr enghraifft ganlynol:

Ond y peth yw... M-hm. ...mae’r ddau yn wir

Pan nad oedd y ddau siaradwyr i'w clywed yn glir ag ar wahân, fe hepgorwyd y lleferydd o’r data.

Rhegfeydd

Dylid nodi ein bod ni heb hepgor rhegfeydd wrth drawsgrifio.

Y Dyfodol

Wrth ddefnyddio’r banc trawsgrifiadau dylid cadw mewn cof mai fersiwn cychwynnol ydyw. Bwriadwn fireinio a chysoni ein trawsgrifiadau ymhellach, ac ychwanegu mwy fyth o drawsgrifiadau i’r banc yn rheolaidd dros y flwyddyn nesaf

Cyfyngiadau

Er mwyn parchu'r cyfrannwyr, wrth lwytho'r data hwn i lawr rydych yn cytuno i beidio â cheisio adnabod y siaradwyr yn y data.

Diolchiadau

Diolchwn i'r cyfrannwyr am eu caniatâd i ddefnyddio'u lleferydd. Rydym hefyd yn ddiolchgar i Lywodraeth Cymru am ariannu’r gwaith hwn fel rhan o broject Technoleg Testun, Lleferydd a Chyfieithu ar gyfer yr Iaith Gymraeg.

Bangor Transcription Bank

This resource is a bank of 25 hours 34 minutes and 24 seconds of segments of natural speech from over 50 contributors in mp3 file format, together with corresponding 'verbatim' transcripts of the speech in .tsv file format. The majority of the speech is spontaneous, natural speech. We distribute this material under a CC0 open license.

Purpose

The purpose of these transcripts is to act as training data for speech recognition models, including our wav2vec models . For that purpose, transcriptions are more verbatim than what is seen in traditional transcriptions and than what is required for subtitling purposes, thus a bespoke set of conventions has been developed for the transcription work ( see below ). Our wav2vec models use an auxiliary component, namely a 'language model', to further standardize the speech recognition model’s output in order that it be more similar to traditional transcriptions and subtitles.

We have provided 3 .tsv files, namely clips.tsv, train.tsv and test.tsv. clips.tsv contains all of our transcripts. train.tsv and test.tsv were created to provide 'standard' sets that allow users to compare models trained by different trainers fairly, i.e. they were created as a 'benchmark'. train.tsv contains 80% of our transcripts, and test.tsv contains the remaining 20%.

Here is an example of the data content:

audio_filename	audio_filesize	transcript	duration
f86a046fd0964e0386d8c1363907183d.mp3	898272	*post industrial* yym a gyda yy dwi'n ca'l deud	5092
f0c2310fdca34faaa83beca5fa7ed212.mp3	809720	sut i ymdopio felly, wedyn erbyn hyn mae o nôl yn y cartra	4590
3eec3feefe254c9790739c22dd63c089.mp3	1335392	Felly ma' hon hefyd yn ddogfen fydd yn trosglwyddo gyda'r plant bobol ifanc o un cam i'r llall ac hefyd erbyn hyn i'r coleg 'lly.	7570

There are four columns in the .tsv files. The first is the name of the audio file. The second is the size of the audio file. The transcript itself appears in the third column. The length of the audio clip appears in the last.

Here is the information about the columns.

Field	Explanation
audio_filename	The name of the audio file within the 'clips' folder
audio_filesize	The size of the file
transcript	Transcript
duration	Duration of the clip in milliseconds.

The Process of Creating the Resource

The audio files were mainly collected from Welsh podcasts, after having gained the consent of the podcast owners and individual contributors to do so. We are extremely grateful to those people. In addition, some scripts were created which mimicked the pattern of news items and articles. These scripts were then read by Language Technologies Unit researchers in order to ensure that content of that type was included in the bank. The audio files were run through our in-house automated transcriber to segment the audio and create raw transcripts. Using Elan 6.4 (available from https://archive.mpi.nl/tla/elan ), experienced transcribers listened to and corrected the raw transcript.

A Note About Content Anonymization

Out of respect to the contributors, we have anonymised all transcripts. It was decided to anonymize not only the names of individual people, but also any other Personally Identifiable Information (PII) including, but not limited to:

Phone number
Job titles/occupations
Workplaces
Names of public places
Geographical location
Dates/times When transcribing, all segments containing PII were marked with the <PII> tag, we then filtered out all segments containing a <PII> tag to ensure no personal information was published as part of this resource.

We have also randomized the order of the segments so that they are not published in the order they appeared in the original audio files.

Transcription Conventions

These transcription conventions were developed to ensure that the transcriptions were not only verbatim but also consistent. They were developed by referring to conventions used by the Unit in the past, conventions such as those used in the CorCenCC, Siarad, CIG1 and CIG2 corpora, and also through a process of ongoing development as the team undertook the task of transcription. NOTE - as we have partially developed the conventions at the same time as undertaking the task of transcription the early transcriptions may not follow the latest principles faithfully. We intend to check the transcripts after we have refined the conventions.

Apostrophes

Apostrophes were not used to mark every single letter omitted by speakers. For example, gwitho (which is a pronunciation of gweithio ) is correct, not gw’ith'o .

Rather, apostrophes were used to distinguish between different words that were otherwise spelled identically. For example we use an apostrophe in front of 'ma (a pronunciation of yma ) to distinguish it from ma' (a pronunciation of mae ), gor'o' to distinguish between gorfod and the third person singular form of the present dependent tense gori , and pwysa' to distinguish between the plural form of pwys and a number of possible verb forms of pwyso .

However, there is an exception to this rule, that being when spelling a word without an apostrophe would change the sound of the letter before or after the apostrophe, thus Cymra'g is correct, not Cymrag .

Non-verbal sounds

Efforts were made to transcribe non-verbal sounds consistently. For example, yy was always used (rather than yrr , yr or err , or a mixture of those) to represent or reflect the sound made when a speaker was trying to think or paused in speaking.

The following were used in transcription:

yy
yym
hmm
m-hm

Again, we anticipate that this list will grow as we transcribe more speech and as we encounter more non-verbal sounds.

English words

We have surrounded each English word or phrase with asterixis, for example:

Dwi’n deall *sort of* .

Adapting English words as Welsh language infinitives

When speakers use English words as infinitives (by adding io at the end of the word for example) we have endeavoured to spell the word using Welsh spelling conventions rather than adding io to the English spelling of the word. For example we have transcribed heitio instead of hateio , and lyfio instead of loveio .

Correction of mis-pronunciations

To ensure that we adhere to the principles of verbatim transcription it was decided that we should not correct speakers' mis-pronunciations. For example, in the following sentence:

enfawr fel y diffyg o fwyd yym efallu cam-drin

it is clear that efallai is the intended word, but it is transcribed as it is heard.

Punctuation

Full stops, question marks and exclamation marks were used when transcribing the speech.

We have surrounded all quoted words or phrases with ” , for example:

Dywedodd hi ”Dwi’n mynd” ond aeth hi ddim.

A note about our use of commas

As a comma is essentially a convention used for written text, commas were not used prolifically in transcription. Using a comma where one would expected to see it in a written text during transcription would not necessarily have reflected the individual's speech. This should be borne in mind when reading the transcripts.

Individual letters

Individual letters were spelled out rather than being transcribed as individual letters.

That is, this is correct:

Roedd ganddo ow si di

not:

Roedd ganddo O C D

nor:

Roedd ganddo OCD

Numbers

Numbers were transcribed as words rather than digits, thus this is correct:

Y flwyddyn dwy fil ac ugain

rather than:

Y flwyddyn 2020

Half-finished words

Half-finished words are marked with a - . For example:

Ma’n rhaid i mi ca- cael diod.

Half-finished/restarted sentences

Half-finished sentences are marked with a ... . For example:

Ma’n rhaid i mi ca’l... Ma’ rhaid i mi brynu diod.

Speaker interruptions

There are many examples of a speaker interrupting another speaker by using non-verbal sounds, words or phrases (such as m-hm , ie , ydi , yn union etc.) in the data. When the two speakers could be heard clearly and distinctly, a ... was placed at the end of the first part of the broken speech, and another ... at the beginning of the second part of the broken speech, as in the following example:

Ond y peth yw... M-hm. ...mae’r ddau yn wir

When the two speakers could not be heard clearly and distinctly, the speech was omitted from the data.

Swearwords

It should be noted that we have not omitted swearwords when transcribing.

The future

That this is an initial version of the transcript bank should be borne in mind when using this resource. We intend to refine and harmonize our transcripts further, and add yet more transcripts to the bank regularly over the next year.

Restrictions

In order to respect the contributors, by downloading this data you agree not to attempt to identify the speakers in the data.

Acknowledgements

We thank the contributors for their permission to use their speech. We are also grateful to the Welsh Government for funding this work as part of the Text, Speech and Translation Technology project for the Welsh Language.

作者:

techiaith

数据集大小:

532.88 MB

Banc Trawsgrifiadau Bangor

Pwrpas

Y Broses o Greu’r Adnodd

Nodyn Ynghylch Anonymeiddio’r Cynnwys

Confensiynau Trawsgrifio

Collnodau

Tagiau

Synau nad ydynt yn eiriol

Geiriau Saesneg

Cymreigio berfenwau

Cywiro cam-siarad

Atalnodi

Nodyn ynghylch ein defnydd o gomas

Sillafu llythrennau

Rhifau

Gorffen gair ar ei hanner

Gorffen brawddeg ar ei hanner/ailddechrau brawddeg

Siaradwr yn torri ar draws siaradwr arall

Rhegfeydd

Y Dyfodol

Cyfyngiadau

Diolchiadau

Bangor Transcription Bank

Purpose

The Process of Creating the Resource

A Note About Content Anonymization

Transcription Conventions

Apostrophes

Tags

Non-verbal sounds

English words

Adapting English words as Welsh language infinitives

Correction of mis-pronunciations

Punctuation

A note about our use of commas

Individual letters

Numbers

Half-finished words

Half-finished/restarted sentences

Speaker interruptions

Swearwords

The future

Restrictions

Acknowledgements