]> scripts.mit.edu Git - autoinstallsdev/mediawiki.git/blobdiff - vendor/wikimedia/textcat/lm2php.php
MediaWiki 1.30.2
[autoinstallsdev/mediawiki.git] / vendor / wikimedia / textcat / lm2php.php
diff --git a/vendor/wikimedia/textcat/lm2php.php b/vendor/wikimedia/textcat/lm2php.php
new file mode 100644 (file)
index 0000000..be311ac
--- /dev/null
@@ -0,0 +1,27 @@
+<?php
+/**
+ * Convert data from Perl's TextCat LM format to PHP format
+ * used by this tool.
+ */
+require_once __DIR__.'/TextCat.php';
+
+if($argc != 3) {
+       die("Use $argv[0] INPUTDIR OUTPUTDIR\n");
+}
+if(!file_exists($argv[2])) {
+       mkdir($argv[2], 0755, true);
+}
+$cat = new TextCat($argv[2]);
+
+foreach(new DirectoryIterator($argv[1]) as $file) {
+       if(!$file->isFile()) {
+               continue;
+       }
+       $ngrams = array();
+       foreach(file($file->getPathname(), FILE_IGNORE_NEW_LINES|FILE_SKIP_EMPTY_LINES) as $line) {
+               list($word, $score) = explode("\t", $line, 2);
+               $ngrams[$word] = intval($score);
+       }
+       $cat->writeLanguageFile($ngrams, $argv[2] . "/" . $file->getBasename());
+}
+exit(0);
\ No newline at end of file