Spaces:

emirhanbilgic
/

read-my-pdf-outloud

Running on Zero

App Files Files Community

emirhanbilgic commited on Aug 11

Commit

347bb89

•

1 Parent(s): 00f7498

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -34

app.py CHANGED Viewed

@@ -93,45 +93,19 @@ def update_target_lang_options(source_lang):
 # Function to process sentences for audio generation
 def process_sentences_for_audio(sentences, description, tts_model, tts_tokenizer):
     audio_files = []
-    outputs = []
     for i, sentence in enumerate(sentences):
         print(f"Generating audio for sentence {i+1}...")
         output_file_prefix = f"sentence_{i+1}"
         audio_file = generate_single_wav_from_text(sentence, description, output_file_prefix, tts_model, tts_tokenizer)
         audio_files.append(audio_file)
-        outputs.append((sentence, audio_file))
-        print(f"Generated sentence: {sentence}")
-        gr.Markdown(f"**Sentence**: {sentence}")
-        gr.Audio(value=audio_file, label=sentence)
-    return outputs, audio_files
-# Main Gradio function
-def process_pdf(pdf_file, translate_checkbox, source_lang, target_lang, description, tts_model, tts_tokenizer):
-    print("Extracting text from PDF...")
-    text = pdf_to_text(pdf_file.name)
-    # Translate if translation checkbox is selected
-    if translate_checkbox:
-        print("Translating text...")
-        text = translate(text, source_lang, target_lang)
-    print("Splitting text into sentences...")
-    sentences = split_text_into_sentences(text)
-    # Process sentences for audio generation
-    outputs, audio_files = process_sentences_for_audio(sentences, description, tts_model, tts_tokenizer)
-    print("Combining all audio files...")
     combined_output_file = "sentences_combined.wav"
     combine_wav_files(combined_output_file, *audio_files)
-    print("Processing complete.")
-    # Return the sentences with their corresponding audio files
-    return [(sentence, audio_file) for sentence, audio_file in outputs], combined_output_file
 # Gradio interface
 with gr.Blocks() as demo:
@@ -149,12 +123,20 @@ with gr.Blocks() as demo:
             output_group = gr.Group()
     def handle_process(pdf_input, translate_checkbox, source_lang, target_lang, description):
-        outputs, combined_output_file = process_pdf(pdf_input, translate_checkbox, source_lang, target_lang, description, tts_model, tts_tokenizer)
-        with output_group:
-            for sentence, audio_file in outputs:
-                gr.Markdown(f"**Sentence**: {sentence}")
-                gr.Audio(value=audio_file, label=sentence)
-        return combined_output_file
     def handle_translation_toggle(translate_checkbox):
         if translate_checkbox:

 # Function to process sentences for audio generation
 def process_sentences_for_audio(sentences, description, tts_model, tts_tokenizer):
     audio_files = []
     for i, sentence in enumerate(sentences):
         print(f"Generating audio for sentence {i+1}...")
         output_file_prefix = f"sentence_{i+1}"
         audio_file = generate_single_wav_from_text(sentence, description, output_file_prefix, tts_model, tts_tokenizer)
         audio_files.append(audio_file)
+        yield sentence, audio_file
     combined_output_file = "sentences_combined.wav"
     combine_wav_files(combined_output_file, *audio_files)
+    yield None, combined_output_file
 # Gradio interface
 with gr.Blocks() as demo:
             output_group = gr.Group()
     def handle_process(pdf_input, translate_checkbox, source_lang, target_lang, description):
+        text = pdf_to_text(pdf_input.name)
+        if translate_checkbox:
+            text = translate(text, source_lang, target_lang)
+        sentences = split_text_into_sentences(text)
+        for sentence, audio_file in process_sentences_for_audio(sentences, description, tts_model, tts_tokenizer):
+            if sentence:
+                with output_group:
+                    gr.Markdown(f"**Sentence**: {sentence}")
+                    gr.Audio(value=audio_file, label=sentence)
+            else:
+                with output_group:
+                    gr.Markdown("### Combined Audio")
+                    gr.Audio(value=audio_file, label="Combined Audio")
     def handle_translation_toggle(translate_checkbox):
         if translate_checkbox: