Met de nieuwe Google Chrome-extensie kun je tekst in afbeeldingen kopiëren en verwijderen

Anonim

Met de nieuwe Google Chrome-extensie kun je tekst in afbeeldingen kopiëren en verwijderen

computers

Stu Robarts

25 april 2014

Met een nieuwe Chrome-extensie met de naam Project Naptha kunnen gebruikers tekst uit afbeeldingen kopiëren en verwijderen

Het is over het algemeen alleen geaccepteerd dat tekst die is ingesloten in afbeeldingen op internet, niet toegankelijk is. Omdat afbeeldingen als één laag worden gerenderd, is dit precies zoals het is ... of was, omdat een nieuwe extensie voor Google Chrome met de naam Project Naptha het nu mogelijk maakt om tekst vanuit de afbeeldingen te markeren en te kopiëren.

Het eerste ding om te zeggen is dat deze functionaliteit elders bestaat. Bepaalde stukjes software, zoals Microsoft OneNote, Google Drive en Google Street View gebruiken optische tekenherkenning (OCR) om tekst binnen afbeeldingen te identificeren.

Project Naptha, aan de andere kant, gebruikt een methodeaanroep Stroke Width Transform (SWT) die is ontwikkeld door Microsoft Research. Ontevreden over de open-source OCR-algoritmen die beschikbaar waren, heeft ontwikkelaar Kevin Kwok tijd besteed aan het zoeken naar een oplossing. Hij vertelt Gizmag dat hij wekenlang bezig was met het kijken naar letters als 'cryptogram-puzzels' en het herkennen van tekst met een geavanceerd taalmodel, evenals met meer weken bezig 'een soort brute-force tekstherkenner te bouwen.'

Uiteindelijk besluit hij SWT te gebruiken. Deze benadering gebruikt de breedte van de regels die letters vormen als een middel om elementen te identificeren die mogelijk tekst kunnen zijn, in plaats van te proberen om vooraf bepaalde afzonderlijke kenmerken te herkennen als een markering van tekst. Dit geeft het bepaalde voordelen ten opzichte van OCR.

"[Stroke Width Transform] is in staat om tekstgebieden te identificeren op een taal-agnostische manier, " legt Kwok uit. "In zekere zin lijkt het op wat een mens kan doen, we kunnen herkennen dat een teken geschreven taal draagt ​​zonder te weten in welke taal het geschreven is, laat staan ​​wat het betekent. "

SWT is ook in staat om schuine tekst en tekst in foto's te detecteren en werd inderdaad ontworpen met het oog op laatstgenoemde. Dit betekent dat het niet beperkt is tot het maken van tekst in scans van afgedrukte letters of schermafbeeldingen van het web, waarbij de tekst van de occurrence meer vertrouwd is dan die van de computer en daarom gemakkelijker uit te kiezen is.

Kwok legt aan Gizmag uit dat Project Naptha iets was waar hij aanvankelijk aan werkte als onderdeel van een hackathon op MIT (waarbij hij de 2e plaats won). "Tekst selecteren in afbeeldingen was iets dat op technisch vlak goed uitvoerbaar was, dat wil zeggen, de technologie die nodig is om te functioneren, bestaat al een hele tijd, " legt hij uit. "Maar om een ​​of andere onverklaarbare reden was het nog niet eerder gedaan. Al het andere, de transcriptie, vertaling, tekstverwijdering en modificatie kwamen net als een voor de hand liggende en triviale toevoeging zodra het eerste, soort van nutteloze deel van het idee was volbracht. "

Kwok geeft een aantal voorbeeldbronnen waarmee Project Naptha kan worden gebruikt, waaronder scans, foto's met tekst, diagrammen met labels, schermafbeeldingen en afbeeldingen met tekstoverlays. Hij demonstreert ook de mogelijkheid voor tekstoverlays om te worden verwijderd uit afbeeldingen en de opgevulde afbeelding, evenals voor gemarkeerde tekst in afbeeldingen die moeten worden vertaald. Om een ​​naadloze ervaring voor de gebruiker te bieden, houdt Naptha de beweging van de cursor bij en extrapoleert hij continu een seconde vooruit op basis van zijn positie en snelheid, zodat hij kan beginnen met het verwerken van eventuele tekst die de gebruiker uit een afbeelding zou willen kiezen.

Kwok erkent dat een groot deel van de functionaliteit in Project Naptha moet worden verbeterd en suggereert dat tekstherkenning, vertaling en verwijdering na verloop van tijd allemaal verder kunnen worden ontwikkeld (hij zegt in een tweet dat de reden die hij nu heeft gelanceerd, is om gebruik te maken van van wat krediet dat hij heeft bij Google dat zou opraken). Niettemin is de basisfunctionaliteit zeer bruikbaar en is het potentieel voor de meer geavanceerde technologie opwindend.

"Ik denk dat de echte waarde die Naptha biedt de ervaring is, die, voor zover ik weet, ongekend is, " mijmert Kwok. "In termen van zijn verschillende subcomponenten en algoritmen is het waarschijnlijk een aantal jaren achter op de nieuwste stand van de techniek en een van de spannende dingen zou de mogelijkheid zijn van een team om die kloof tussen onderzoek en consumentengebruik te overbruggen. "

Als je je afvraagt, is de naam Naptha afgeleid van het gebruik van een stof genaamd nafta in lichtere brandstoffen en het proces van hoge verlichtingstekst .

Je kunt meer te weten komen over Project Naptha en een proefrit maken met een demo op de Project Naptha-website.

Chrome-extensie: project Naptha

Met een nieuwe Chrome-extensie met de naam Project Naptha kunnen gebruikers tekst uit afbeeldingen kopiëren en verwijderen